ChatTTS - 日常会話用の音声生成モデル

以前、多くのTTSソリューションを共有しました：

今日は、最近オープンソース化された新しいプロジェクトChatTTSを見てみましょう。これは日常会話用の生成音声モデルです：https://huggingface.co/2Noise/ChatTTS。

わずか一週間で、Star数が18kに急上昇しました。

まず、デモを聞いてみましょう：

英語男性声

英語女性声

中国語男性声

中国語女性声

ChatTTSは、対話シーン（例えば大規模言語モデルアシスタント）向けに設計されたテキストから音声への変換モデルです。このモデルは中国語と英語の2つの言語をサポートしており、10万時間以上の中国語と英語の音声データで訓練されています。オープンソース版はHuggingFace上で公開されており、4万時間の事前訓練を受けたが、微調整（SFT）されていないモデルです。

プロジェクトのポイント

：ChatTTSは最適化され、対話タスクに特化しており、自然で表現力豊かな音声合成を生成できます。複数話者に対応しており、インタラクティブな対話を実現するのに役立ちます。
：このモデルは、笑いや一時停止、感嘆詞などの細かいリズム特性を予測し、制御することができます。
：リズム感の面で、ChatTTSはほとんどのオープンソースのTTSモデルを上回っています。ChatTTSは、さらなる研究と開発をサポートするための事前学習済みモデルを提供します。

Google Colab上でデモを実行できます：https://colab.research.google.com/drive/1fJGsNoKxUD62no-Y2mb5onAkhIXbsrI5

生成プロセスはまだ少し遅いですが、少しお待ちください～これは最後に私が得た結果です：