以前、多くのTTSソリューションを共有しました:
今日は、最近オープンソース化された新しいプロジェクトChatTTSを見てみましょう。これは日常会話用の生成音声モデルです:https://huggingface.co/2Noise/ChatTTS。
わずか一週間で、Star数が18kに急上昇しました。
まず、デモを聞いてみましょう:
英語男性声
ChatTTSは、対話シーン(例えば大規模言語モデルアシスタント)向けに設計されたテキストから音声への変換モデルです。このモデルは中国語と英語の2つの言語をサポートしており、10万時間以上の中国語と英語の音声データで訓練されています。オープンソース版はHuggingFace上で公開されており、4万時間の事前訓練を受けたが、微調整(SFT)されていないモデルです。
プロジェクトのポイント
:ChatTTSは最適化され、対話タスクに特化しており、自然で表現力豊かな音声合成を生成できます。複数話者に対応しており、インタラクティブな対話を実現するのに役立ちます。 :このモデルは、笑いや一時停止、感嘆詞などの細かいリズム特性を予測し、制御することができます。 :リズム感の面で、ChatTTSはほとんどのオープンソースのTTSモデルを上回っています。ChatTTSは、さらなる研究と開発をサポートするための事前学習済みモデルを提供します。
Google Colab上でデモを実行できます:https://colab.research.google.com/drive/1fJGsNoKxUD62no-Y2mb5onAkhIXbsrI5
生成プロセスはまだ少し遅いですが、少しお待ちください~これは最後に私が得た結果です: