セサミCSM - すぐにお披露目される超優秀な音声モデル、オープンソース化予定~

最近、非常に優れた音声モデルを見ました。間もなくオープンソース化されるので、まずはそのデモを皆さんと共有します:「Crossing the uncanny valley of conversational voice」。公開日は2025年2月27日で、Brendan Iribe、Ankit Kumar、およびSesameチームによって発表されました。https://github.com/SesameAILabs/csm

まず、私と彼の会話の一部をお聞きください(少しアクセントがあり、話し方が良くないのは私です):

「音声の臨場感」を実現する

一個人が本当に私たちを理解しているかどうかを判断するには、言葉だけでなく、声の微妙な部分に現れます:興奮したときの語調の上昇、深く考える際の適切な一時停止、そして温かみのある慰めの感覚。

声は人類にとって最も親密なコミュニケーションメディアであり、無数の微妙な変化を通じて豊かで繊細な意味を伝えます。それは、語調、音高、リズム、そして感情に反映されます。

しかし、現存するデジタル音声アシスタントはこの重要な特性に欠けており、私たちの日常生活に完全に溶け込むのは難しいです。初めて使うときの新鮮さが過ぎ去ると、単調で中立的な音声が次第に疲れを感じさせるようになります。

セサミチームの目標は、「音声プレゼンス(Voice Presence)」を実現することです——つまり、本物で、理解力があり、価値のある音声インタラクションを提供することです。彼らが作り出しているのは単なる命令を処理するツールではなく、信頼感を築きながら真の会話を続けるパートナーであり、これにより音声の人間と機械の間でのインタラクションの大きな可能性が本当に解放されます。

音声プレゼンスを実現するための鍵となる要素:

  • 感情知能:対話中の感情を理解し、それに応じて反応すること;
  • 対話のダイナミクス:自然なリズム、適切な間、中断と強調;
  • 状況認識:具体的な状況に応じてトーンやスタイルを調整;
  • 一貫した人格特性:一貫性、信頼性があり、適切な性格表現を維持する。

CSM 新しい音声モデル

セサミチームが提案したConversational Speech Model(CSM)新しい音声モデルで、Transformerに基づくエンドツーエンドのマルチモーダル学習フレームワークを採用しています。その主要な革新点は以下の通りです:

  • マルチモーダルTransformerアーキテクチャを使用して、エンドツーエンドの音声インタラクション学習を実現すること;
  • 言語とリズムなどの複数の次元を総合的に考慮して音声推論を行う;
  • 伝統的な公開評価データセットの制限を超え、より厳格な評価方法を採用し、モデルの性能向上を促進する。

CSMを通じて、「音声臨場感」(Voice Presence)の実現を目指す重要な一歩を踏み出し、AI音声が単調な命令応答者ではなく、真正にインタラクティブで感情や状況を理解できる対話パートナーとなるようにする。

モデルアーキテクチャの詳細

Conversational Speech Model(CSM)RQ-Transformerのアイデアに基づき、2つの自己回帰型Transformerを使用して実現されたマルチモーダル音声モデルです。文献の手法とは異なり、SesameチームはTransformerをゼロ番目のコードブック(zeroth codebook)で分割しました。

最初のマルチモーダル主幹ネットワーク(Backbone)は、テキスト(Text)とオーディオ(Audio)の交互入力シーケンスを処理し、第0層のコードブックを予測します。2番目のオーディオデコーダー(Decoder)は、第0層コードブックの予測結果に基づいて、さらに第1から第N–1層のオーディオ情報を生成します。

モデルの具体的な動作メカニズム

具体的な実装において、テキスト(T)とオーディオ(A)のトークンが交互に入力され、Backboneネットワークが第0層コードブックの内容を予測します。その後、Decoderは既に予測された第0層を基に、第1から第N-1層のコードブック内容を自己回帰的にサンプリングして生成し、最終的にオーディオの再構築を実現します。

チームは2つのTokenizerを使用しました:

  • テキストTokenizer:Llama tokenizer[6]を採用し、テキストのトークンを生成します。
  • オーディオTokenizerMimi(一種のsplit-RVQ Tokenizer)を使用して、12.5Hzの周波数で各フレームごとに1つの意味コードブック(semantic codebook)とN-1個の音響コードブック(acoustic codebooks)を生成します。

訓練データサンプルの構造は、テキストと音声が交互に配置されたパターンです。

計算分摊方案(Compute Amortization)

モデルが非常に大きなメモリを必要とするため、モデルの規模が小さくてもトレーニング速度が遅くなり、スケールアップや実験の速度に影響します。このため、チームは計算分散方案を採用してメモリボトルネックを緩和しました:

  • 主幹ネットワーク(Backbone Transformer)はすべてのオーディオフレームに対して第0層のコードブックを予測します;
  • デコーダーは、ランダムに選択された1/16フレームに限定して、残りの第1から第N-1層のコードブックを予測し、これによりトレーニングに必要なメモリ消費が大幅に削減され、モデル拡張時のボトルネックが緩和されました。

具体的には:

  • Backboneは、すべてのフレームに対して第0層のコードブックをモデル化します(青色で強調表示)。
  • Decoderは、ランダムに抽出された1/16のフレーム(緑色でマーク)のみを対象に、残りのコードブック内容を予測し、損失を計算します。

この方法は、RVQコードブックの完全性と音質の忠実度を維持しながら、メモリ制限を緩和し、学習速度と拡張性を向上させ、より迅速な実験イテレーションを可能にします。

モデル規模と学習の詳細

3つの異なるスケールのモデルが設計されました:

  • Small: バックボーン 3Bパラメータ、デコーダー 250Mパラメータ
  • Medium: バックボーン 8Bパラメータ、デコーダー 300Mパラメータ
  • Tiny: バックボーン 1Bパラメータ、デコーダー 100Mパラメータ

すべてのモデルのトレーニングシーケンス長は2048(約2分の音声コンテンツに相当)であり、各モデルは5エポック訓練されました。

サンプル表示 (Samples)

付加的言語表現 (Paralinguistics)

  • サンプル音声1

  • サンプル音声2

外国語サンプル (Foreign Language)

  • サンプル音声1
  • サンプル音声2

文脈に応じた表現力(Contextual Expressivity)

  • サンプル音声1
  • サンプル音声2

注:モデルがコンテキストに応じてイントネーション、語速、および感情表現を正確に調整する方法を示します。これにより、音声コンテンツが実際の状況にさらに適合します。

発音矯正例(Pronunciation Correction)

  • 例音声1
  • 例音声2

注:発音矯正例は実際の録音であり、その他の音声はすべてモデルによって生成されました。

複数話者対話例(Multiple Speakers)

  • サンプル音声

注:2人の話者に基づく音声ヒントを使用し、単一の生成プロセスで自然かつ滑らかな多人数対話効果を実現します。

モデル評価(Evaluation)

CSMモデルのパフォーマンスをより客観的に評価するために、客観的評価法と主観的評価法の両方を採用しました。客観的評価では、従来の指標(例如、単語誤り率)や新しい意味・発音テストが使用され、主観的評価ではExpressoデータセットを活用し、聴衆による比較式主観評価(CMOS)が行われ、モデルの感情表現力や対話適合性が評価されました。

📌 客観評価

WER(単語誤り率)やSIM(話者類似度)などの従来の評価指標はすでに飽和しており、CSMなどの現代モデルはこれらの指標において人間のパフォーマンスに近づいています。

モデルの性能をさらに示すために、以下に2つのより挑戦的なテストを導入します。

  • 同形異音語の識別(Homograph Disambiguation)
    スペルは同じだが発音が異なる単語をモデルが正しく読み分けられるかどうかを検証します。例えば、英単語「lead」は状況によって /lɛd/(金属の鉛)と /liːd/(リード、指導)の2通りの発音があります。

  • 発音の一貫性テスト (Pronunciation Consistency)
    モデルが異なる状況での同じ単語の発音の安定性を評価します。例えば、英語では「route」、「data」、「caramel」などの単語に異なる一般的な発音変種が存在します。

以下の図は、各モデルが上記のテストで示したパフォーマンスの比較です:

  • 左側は同形異音語(Homograph)テストの結果です;
  • 右側は一般的な変体発音(Consistency)テストの結果です。

(Play.ht、Elevenlabs、OpenAIモデルのデフォルト設定での生成結果を比較しました。)

全体的に見ると、モデルの規模が大きいほど発音の正確率が高くなり、これは「より大規模なモデルがより現実的な音声合成効果をもたらす」というチームの仮説と一致しています。

📌 主観的評価(Expressoデータセット)

主観的評価では、Expressoデータセットを使用しました。このデータセットは多様な感情やリズム変化のサンプルを含んでおり、音声が状況に適応し自然に聞こえるかどうかを評価するのに非常に適しています。聴衆は7段階の対比評価(CMOS)によって、モデルが生成した音声と実際の人間の録音との差を評価します。評価には複数の聴衆が参加し、平均で各人が約15個のサンプルを評価しました。

  • コンテキストなしの評価:リスナーが具体的な文脈なしで、「どの音声がより真人の声に近いか」を判断する。
  • 文脈ありの条件:リスナーが「どの音声が文脈に更适合しているか」を判断する。

結果は以下の通りです:

  • 文脈なしのシーン以下、モデルが生成する音声の自然さは真人に近く、モデル間の差はあまり大きくない。
  • コンテキストやシーンを加えた後、聴衆は真人の録音を選ぶ傾向が強くなる。これは、対話音声生成におけるリズムと情景の一致において、モデルと真人の間にまだ一定の差があることを示している。

📌 モデルの制約と次のステップ計画

現在のCSMモデルは主に英語データで訓練されており、データセット内に少量の他の言語データが存在するため、一定程度のクロスリンガル能力を持つが、全体的に理想的なレベルには達していない。さらに、モデルは現在、テキストと音声内容の高品質な生成のみを実現可能であり、複数人の対話における発言の順番、リズムのコントロール、一時停止の処理などのより深い対話構造を効果的にモデリングすることはできない。

CSMの能力をさらに向上させるために、チームは次の計画を立てています:

  • マルチリンガル対応の拡大
    多様なデータセットによるトレーニングを通じて、モデルのクロスリンガル能力を強化し、マルチリンガル環境でのパフォーマンスを向上させます。

  • テキストと音声の深い相互作用の統合
    今後、CSMモデルをさらに拡張し、より複雑な対話モデリング能力を持たせ、発話の順番や対話のリズムを含む多人数対話の完全な構造を捉える能力を高めます。

  • 音声とテキストの利点を統合
    チームは、新しいAIアーキテクチャを探索しており、モデルがテキストと音声情報の両方を深く理解できるようにすることで、生成される会話と実際の人間の対話とのギャップをさらに縮小しようとしています。