今月、バイトはSeedTTSを発表しました。現時点では論文のみで、コードはまだ公開されていません。
公式デモ
音声因子分解 - ゼロショット音声変換
Source Audio
Timbre Prompt
Converted Audio
強化学習による嗜好調整 - ゼロショット状況学習における感情制御
Prompt
Angry
Happy
完全拡散に基づく音声生成 -ゼロショット TTS
Prompt
Same Language Generation
I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences.
Cross-linugal Generation
その瞬間、空気が重苦しくなった。一見すると、すべての悩みが私を取り囲んでいるように思えた。私は眉をひそめ、その圧力を感じたが、決して諦めてはならないと分かっていた。そこで、深く息を吸い込み、心の中で声が語りかけた。「どんなに困難であっても、冷静になり、再び始めるんだ。」
適用シーン:
オーディオブック
「この錠剤……催眠薬やアフロディザイアのようなものではないですよね?匂いを嗅いでみると、お二人の姉さんが言っていたものととても似ています。あなたはまさか…私に悪事を企んでいないでしょうね?」韓立はその話を聞いてしばらく呆然としていました。今更ながら血を吐きたくなるような気がします。この女の子の思考回路は本当に理解できませんね。竟然迎香丸をアフロディザイアと結びつけるなんて。あぁ、韓立は今、相手の慎重さに感心するべきか、それとも自分の無実を訴えて三声叫ぶべきか迷っています。「どうやら本当のようですね。でも、私はこれを二姐に検査してもらうまで使うつもりはありません。私たち女性は特に注意深くなければなりませんから。」 「咳、咳、えーどうぞ勝手に。」韓立は言葉を失い、ただ少し咳をして顔の狼狽を隠しました。彼は今、この小妖精から少し距離を取ったほうが良いと感じています。そうでないと、いつの間にか彼女によって鬱々とした気分になるかもしれません。「ふんふん、しかし、もし薬が本当にあなたが言うほど効果があれば、それで合格です!これから先、師兄が莫府で困ったことがあれば、彩環に助けを求めればいいですよ。私はほんの小さな報酬をもらえば、きっと完全に問題を解決できます。」「了解、師妹よ、師兄が何かあれば必ず君の助けを借りるよ。」韓立も平常心を取り戻し、皮肉な笑みを浮かべてそう答えましたが、内心では「君みたいな小金持ちに頼むはずがない」と思いながらでした。
多言語コンテンツ作成
Source Video
Generated Video
概要
は予測された Foneme 時間に依存せず、エンドツーエンドの処理を通じて音声生成を行います。研究チームは、客観的および主観的な評価において、言語モデルベースの変種と同等の性能を達成したことを示し、音声編集におけるその有効性も示しました。
方法
Seed-TTS推論プロセスの概要:
:リファレンス音声から分かち書きを学習する。 :条件に基づくテキストと音声から音声のトークンを生成する。 :生成された音声トークンが与えられた場合、粗い段階から細かい段階へと連続的な音声表現を生成する。 :拡散出力から高品質な音声を生成する。