ソニーのMMAudioモデル — 動画に音効果を付加

MMAudioの開発者は、UIUC、Sony AI、およびSony Group Corporationです。

MMAudioは、ビデオおよび/またはテキスト入力を基に同期音声を生成します。その主要な革新点は、多様なオーディオ-ビジュアルおよびオーディオ-テキストデータセット上で訓練可能なマルチモーダルジョイントトレーニングにあります。さらに、MMAudioには生成された音声をビデオフレームと合わせるための同期モジュールも含まれています。

効果のデモ（ビデオ内の音声はMMAudioによって生成されました）

訓練

MMAudioは、オーディオ-ビジュアル-(テキスト)データセットでの訓練に加え、高品質で豊富なオーディオ-テキストデータを用いたマルチモーダルジョイントトレーニングを行い、これによりデータセットの規模を効果的に拡大しています。推論段階では、MMAudioはビデオおよび/またはテキストのガイドに基づいて条件に一致する音声を生成できます。

MMAudioの予測ネットワークの概要

ビデオ条件、テキスト条件、およびオーディオ潜在変数がマルチモーダルトランスフォーマーネットワーク内で協調して作用します。同期モデルにはフレームアライメントの同期特徴が注入され、正確なオーディオ-ビジュアル同期を確保します。

生成された音声のスペクトログラムの比較

生成された音声のスペクトログラムを他の方法や実際の音声のスペクトログラムと比較します。注目に値するのは、MMAudioの手法で生成された音響効果が実際の音声に最も近い一方で、他の方法は視覚入力と一致しない、または実際の音声には存在しない音を生成しがちであることです。

試用リンク

HuggingFace - https://huggingface.co/spaces/hkchengrex/MMAudio
Colab - https://colab.research.google.com/drive/1TAaXCY2-kPk4xE4PwKB3EqFbSnkUuzZ8
Replicate - https://replicate.com/zsxkib/mmaudio