阿里巴巴通義大モデルの音声チーム(speechteam)は今月、2つの音声関連モデルと1つのアプリケーションフレームワークを発表しました:
:高精度の多言語音声認識、感情認識、およびオーディオイベント検出に使用され、SenseVoiceは非常に低い遅延を提供し、50以上の言語をサポートしています。
:自然な音声生成に使用され、多言語、音色、感情制御機能を備えています。CosyVoiceは、多言語音声生成、ゼロショット音声生成、クロスリンガル音声クローン、および命令遵循能力において優れたパフォーマンスを発揮します。
:これらの2つのモデルを組み合わせていくつかの具体的なアプリケーションを作成し、大言語モデル間の自然な音声インタラクションを強化するためのフレームワークを目指しました。
適用シーン
音声から音声への翻訳
:SenseVoice、LLMs、CosyVoiceを統合することで、音声から音声への翻訳(S2ST)を簡単に実現できます。
事例1:
元の音声: そう、だから今の話で、この請求書のことだけど、処理できると言うなら、どうにかして処理してくれ。
生成された翻訳音声:
事例2:
元の音声:
生成された翻訳音声: その後、その会社を完全に買収する。だから、経営陣を一列に並べ、家族に入る資産との利益を一致させることが、私たちが全てを買わない理由の一つです。
感情音声チャット
:SenseVoice、LLMs、CosyVoiceを統合することで、感情音声チャットアプリを開発できます。以下の例では、ユーザーとアシスタントのコンテンツはすべてCosyVoiceによって合成されています。
事例:
ユーザー:おはよう アシスタント:生成スタイル: 温かいトーン、ゆっくりした話し方、フレンドリーな感情。 メッセージ内容: おはようございます、今日はどんな気分ですか? ユーザー: 今日は特に嬉しい アシスタント: 生成スタイル: 高いピッチ、速い話し方、幸せな感情。 メッセージ内容: [呼吸]あら、そんなに嬉しいなんて[呼吸]私も嬉しいわね、何か良いことでもあったの? ユーザー: 新しい音声大モデルをリリースするんだ アシスタント: 生成スタイル: 普段のトーン、中程度の話し方、少しユーモアのある感情。 メッセージ内容: [笑い]素晴らしい、新しい音声大モデルをリリースするって聞いたけど、本当に興奮するニュースだね! ユーザー: 傷心な気持ちで光頭強のセリフを言ってみて アシスタント: 生成スタイル: 低いピッチ、ゆっくりした話し方、悲しい感情。 メッセージ内容: "あぁ---また空手而帰しそうだ---" ユーザー: 素晴らしいね アシスタント: 生成スタイル: ポジティブなトーン、適度な話し方、励ましの感情。 メッセージ内容: それは本当に素晴らしいことです、この勢いを維持してください!
インタラクティブポッドキャスト
:SenseVoice、リアルタイム世界知識を持つLLMベースのマルチエージェントシステム、CosyVoiceを統合することで、インタラクティブポッドキャストを作成できます。
事例:
アシスタント_小夏:未来AIアナウンサーがあなたを知識の最前線に導きます。皆さんこんにちは、私たちのポッドキャスト番組へようこそ、私はアナウンサーの小夏です。 アシスタント_大東:Hello、皆さんこんにちは、私はあなたの笑い担当の大東です。今日は非常にセンセーショナルな話題についてお話しましょう、それが五月天コンサートでの偽歌騒動です。 アシスタント_小夏:そうですね、最近この話題はかなりの議論を引き起こしています。まず、ネットユーザーが暴露したいくつかの証拠や分析を見てみましょう。ユーザーがアップロードした五月天コンサートのビデオクリップには、主唱の阿信が明らかに口パクをしているのが見られます、さらにはいくつかの場所では口型が合わないこともあります。 アシスタント_大東:はは、そのビデオを見たら確かに少し気まずかったです、阿信がマイクを下げる瞬間もありましたよね。 ユーザー: でもこれってプロとしてあまりにも不誠実じゃない? アシスタント_大東:プロフェッショナリズムの問題は確かに議論すべきです。五月天はずっとライブパフォーマンスで知られていますが、もしバンドが本当に偽歌していた場合、ファンは失望するかもしれません。しかし、音楽の質やアーティストの体調を考えると、時には対策を取ることもあります。ただ、ファンは通常本物のライブパフォーマンスを見たいと思っていますよね?どう思いますか? ユーザー: まあ、意味がないね、別の話題にしよう。 アシスタント_大東:次に次の話題に入りましょう、非常にホットなテーマです。それはタイ代表チームが中国戦36強予選に向けて出したポスターです、期待感と緊張感が感じられるものですね。 アシスタント_小夏:私もそのポスターを見たとき、複雑な気持ちになりました。我々のサッカー代表チームが最後にタイ代表に大敗したのは悪夢でした、あの1対5のスコアは本当に辛い記憶です。しかし、今回はタイ代表がそれを宣伝材料として使っているので、我々の代表チームの若者たちにはしっかりとした精神状態で臨んでほしいですね。 アシスタント_大東:そうです、このポスターには2013年の親善試合と2019年の中国カップでタイ代表が我が代表を破った状況も掲載されており、タイ代表は全く遠慮しませんね。
表現豊かな朗読
:LLMの解析能力を使って本の中の感情を構造化し、識別し、それにCosyVoiceの合成能力を組み合わせることで、より表現豊かな有声書籍を実現できます。
事例:
神鵰俠侶、第九回、百計避敵。
陸無双は正に困惑しており、彼女の突然の愚問に怒って「バカ!何を胡散臭いことを言っているの?」と言いました。 楊過は笑って「天地礼拝をして結婚する遊びをしてみよう、君が花嫁役をしてくれるといいだろう、それこそ美しいよ!顔に赤布を被れば、他人は何を言っても見えなくなる」と言いました。 陸無双は驚いて「あなたは私に花嫁役をして師匠から逃れるように教えたのですか?」と言いました。 楊過はにやりと笑って「私は知らない、君が花嫁役をすれば、私は新郎役をする」と言いました。
二つのモデル:
音声理解モデル:SenseVoice
:自動音声認識(ASR)、言語認識(LID)、感情認識(SER)、オーディオイベント検出(AED)などの複数の音声理解能力を持つ音声基盤モデルです。SenseVoice-Smallはエンコーダのみを使用する音声基盤モデルで、高速な音声理解に使用されます。SenseVoice-Largeはエンコーダ-デコーダの音声基盤モデルで、多くの言語をサポートし、より正確な音声理解を実現します。
音声生成モデル:CosyVoice
:要約すると、CosyVoiceには入力テキストに対応する音声マークを生成するための自己回帰トランスフォーマー、生成された音声マークからMelスペクトログラムを再構築するためのODEベースの拡散モデル、そしてHiFTNetに基づくボコーダーが含まれます。点線のモジュールは特定のモデル使用時にオプションであり、例えばクロスリンガル、SFT推論などです。
CosyVoiceモデルを試す
:Google Colabのノートブックを見つけ、実行してみました。結果として、Trumpの声質を使ったテキストから音声への変換を行いました。
元の音声:
生成の音声:
The most incredible thing was that I happened to not only turn but to turn at the exact right time and in just the right amount, I’m supposed to be dead, I’m not supposed to be here