音声合成技術まとめ

テキストに対応する音声を自動で生成する技術. Text to Speech(TTS).

録音編集方式法.

規則合成方式

Text to Speach.

ソフトウェア

🗣VOICEBOX

テキスト読み上げソフトウェア, 2021年公開.

  • 商用・非商用問わず無料.
  • ずんだもんで有名.


  • <2024-11-11 Mon 18:15> installしてみた.

🗣openai/wisper

WhisperはOpenAIの開発した音声モデル. 音声データをテキストに変換する.

2種類の用途がある.

  • transcription(音声からの文字起こし)
  • translations(書き起こし+翻訳)

🔖音声会話

音声会話技術.

🔖トークロイド

テキスト音声読み上げに特化したボーカロイド. VOCALOIDが「歌う」のではなく「話す」ときの呼び名.

🔖ボーカロイド

CAVIO AI

ずんだもんで最近有名?

💡ボーカロイドをトークロイド化する

本来歌うためのソフトウェアを話させるには?

🗣MMD Agent

音声会話のためのツールセット.


🗣Open JTalk

日本語音声合成ソフト, 名古屋工大が開発.

🔖音声合成


初音ミク音声. 2024年現在, CUUBE370さんの作成した音響モデル, 旧hts_engine_APIをTakayanの開発した変化ツールで.htsvoice形式に変換する必要があるようだ.

自作音響モデル - MMDAgent & Project-NAIP wiki

変換ソフトはWindowsソフトでありほかのOSでは?

🔧Mono(.NET)をつかってtakayanの書いたcsコードをクロスプラットホームようにコンパイルする必要があるが, 配布が2024現在されてない.

https://neu101.seesaa.net/article/316259910.html

コメント欄に「htsvconv.cs」でググればGitHubに落ちてるという情報をもとにそれっぽいのを見つけた.

https://github.com/mrtry/siritori/blob/master/voice_bank/htsvconv.cs


🗣MMDAgent-EX

2023/12/25. AI時代の進化. MMD Agentが2018から更新がなくて心配していた.


🎵音楽生成AI