バイトによる Seed-TTS: 高品質で多機能な音声生成モデルのシリーズ

今月、バイトはSeedTTSを発表しました。現時点では論文のみで、コードはまだ公開されていません。

公式デモ

音声因子分解 - ゼロショット音声変換

Source Audio

Timbre Prompt

Converted Audio

強化学習による嗜好調整 - ゼロショット状況学習における感情制御

Prompt

Angry

Happy

完全拡散に基づく音声生成 -ゼロショット TTS

Prompt

Same Language Generation

I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences.

Cross-linugal Generation

その瞬間、空気が重苦しくなった。一見すると、すべての悩みが私を取り囲んでいるように思えた。私は眉をひそめ、その圧力を感じたが、決して諦めてはならないと分かっていた。そこで、深く息を吸い込み、心の中で声が語りかけた。「どんなに困難であっても、冷静になり、再び始めるんだ。」

適用シーン：

オーディオブック

「この錠剤……催眠薬やアフロディザイアのようなものではないですよね？匂いを嗅いでみると、お二人の姉さんが言っていたものととても似ています。あなたはまさか…私に悪事を企んでいないでしょうね？」韓立はその話を聞いてしばらく呆然としていました。今更ながら血を吐きたくなるような気がします。この女の子の思考回路は本当に理解できませんね。竟然迎香丸をアフロディザイアと結びつけるなんて。あぁ、韓立は今、相手の慎重さに感心するべきか、それとも自分の無実を訴えて三声叫ぶべきか迷っています。「どうやら本当のようですね。でも、私はこれを二姐に検査してもらうまで使うつもりはありません。私たち女性は特に注意深くなければなりませんから。」「咳、咳、えーどうぞ勝手に。」韓立は言葉を失い、ただ少し咳をして顔の狼狽を隠しました。彼は今、この小妖精から少し距離を取ったほうが良いと感じています。そうでないと、いつの間にか彼女によって鬱々とした気分になるかもしれません。「ふんふん、しかし、もし薬が本当にあなたが言うほど効果があれば、それで合格です！これから先、師兄が莫府で困ったことがあれば、彩環に助けを求めればいいですよ。私はほんの小さな報酬をもらえば、きっと完全に問題を解決できます。」「了解、師妹よ、師兄が何かあれば必ず君の助けを借りるよ。」韓立も平常心を取り戻し、皮肉な笑みを浮かべてそう答えましたが、内心では「君みたいな小金持ちに頼むはずがない」と思いながらでした。

多言語コンテンツ作成

Source Video

Generated Video

概要

は予測された Foneme 時間に依存せず、エンドツーエンドの処理を通じて音声生成を行います。研究チームは、客観的および主観的な評価において、言語モデルベースの変種と同等の性能を達成したことを示し、音声編集におけるその有効性も示しました。

方法

Seed-TTS推論プロセスの概要：

：リファレンス音声から分かち書きを学習する。
：条件に基づくテキストと音声から音声のトークンを生成する。
：生成された音声トークンが与えられた場合、粗い段階から細かい段階へと連続的な音声表現を生成する。
：拡散出力から高品質な音声を生成する。