Sketch2Sound:時間変化信号と音声模倣に基づく制御可能なオーディオ生成

Sketch2Soundは、アドビとアメリカのノースウェスタン大学が共同で開発した生成型オーディオモデルです。現在、論文が公開されていますが、オープンソース化や試用版の提供はまだ行われていません。

概要

Sketch2Soundは、次の組み合わせ方式を通じて高品質なサウンドエフェクトを生成する革新的な生成型オーディオモデルです:

  • 時間変化制御信号
    • 音量
    • (スペクトルの中心)
    • 音高確率
  • :意味論的なレベルでのオーディオ生成制御を実現する。
  • :人声による模倣や音声の形状を参考にし、カスタマイズされたサウンドエフェクトを生成する。

主な特徴

  1. 軽量化実現

  • テキストから音声への潜在拡散トランスフォーマー(Latent Diffusion Transformer, DiT)に基づく。
  • わずか40kステップの微調整トレーニングと各制御信号に対する単一の線形層で済むため、計算コストが低いです。
  • ControlNetなどの手法に比べてより効率的です。
  • 柔軟なランダム中値フィルタリングトレーニング

    • :トレーニング中に制御信号に対してランダム中値フィルタリングを適用します。
    • :入力信号の時間分解能に対する柔軟性が向上し、異なる時間精度の信号を処理可能です。
  • 入力制御の一貫性

    • モデルは音声模倣の「意図」に基づいて音効果を生成し、同時にテキストプロンプトの意味論的要求に適合します。
    • 出力される音効果の品質は、純粋なテキストベースで生成されるベースライン方法と同等です。

    適用シーン

    • :サウンドアーティストに提供する:
      • テキストベースのプロンプトによる意味的な柔軟性。
      • 音声模倣に基づく表現力と精度。
    • :特にビデオと同期する音響効果やインタラクティブな環境におけるオーディオコンテンツの生成に適しています。

    作業プロセス

    1. 任意の入力音(例えば、人の声の模倣やリファレンス音の形状)から、3つの主要な制御信号を抽出します:

    • **音量 (Loudness)**:音量の変化を表します。
    • **スペクトル重心 (Spectral Centroid)**:音の明るさや鮮明さを表します。
    • **音高確率 (Pitch Probabilities)**:音の音高特性を表します。
  • 信号の符号化

    • 上述の制御信号を潜在特徴量(Latents)に符号化し、モデルが理解および処理できるようにします。
  • 生成システムと組み合わせて

    • テキストから音声への生成システムに渡されます。
  • 出力音声

    • システムは制御信号とテキストのヒントに基づき、意味論的に一致し且つ高品質な音声を生成します。

    制御曲線の意味論

    入力音声

    出力音声

    」(森林環境)の場合、Sketch2Sound は以下の挙動を示します:

    1. コントロールカーブの解釈

    • 入力された制御信号の中で、モデルは音量(Loudness)のピーク部分を鳥の鳴き声の表現として解釈します。
    • モデルはこれらの音量のピークを、環境で一般的な鳥の鳴き声の効果と自動的に関連付けることができます。
  • 明確な指示なしに

    • テキストの指示に鳥の鳴き声が明示されていなくても、モデルはシーンに適した鳥の鳴き声を生成することができます。
    • これは、モデルが音声生成において制御信号にのみ依存せず、シーンに関連する詳細を意味理解を通じて推論できることを示しています。
  • 結果

    • 生成された音響効果では、森林の雰囲気が環境音(風や葉の音など)と自然音(鳥の鳴き声など)によって忠実に再現されています。

    音声模倣によるビデオと同期した音響効果の生成:人声模倣とテキストプロンプトの組み合わせにより、視覚的なコンテンツに適合した高品質な音響効果を作成します。