ChatTTS - 日常会話用の音声生成モデル

以前、多くのTTSソリューションを共有しました:

今日は、最近オープンソース化された新しいプロジェクトChatTTSを見てみましょう。これは日常会話用の生成音声モデルです:https://huggingface.co/2Noise/ChatTTS。

わずか一週間で、Star数が18kに急上昇しました。

まず、デモを聞いてみましょう:

英語男性声

英語女性声
中国語男性声
中国語女性声


ChatTTSは、対話シーン(例えば大規模言語モデルアシスタント)向けに設計されたテキストから音声への変換モデルです。このモデルは中国語と英語の2つの言語をサポートしており、10万時間以上の中国語と英語の音声データで訓練されています。オープンソース版はHuggingFace上で公開されており、4万時間の事前訓練を受けたが、微調整(SFT)されていないモデルです。

プロジェクトのポイント

  1. :ChatTTSは最適化され、対話タスクに特化しており、自然で表現力豊かな音声合成を生成できます。複数話者に対応しており、インタラクティブな対話を実現するのに役立ちます。
  2. :このモデルは、笑いや一時停止、感嘆詞などの細かいリズム特性を予測し、制御することができます。
  3. :リズム感の面で、ChatTTSはほとんどのオープンソースのTTSモデルを上回っています。ChatTTSは、さらなる研究と開発をサポートするための事前学習済みモデルを提供します。

Google Colab上でデモを実行できます:https://colab.research.google.com/drive/1fJGsNoKxUD62no-Y2mb5onAkhIXbsrI5


生成プロセスはまだ少し遅いですが、少しお待ちください~これは最後に私が得た結果です: