メタのAudio2Photoreal - 音声から動き出すバーチャルヒューマンまで

昨日、MetaはAudio2Photorealを公開しました。コード、データセット、デモ、論文がすべて揃っています。

https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

概要

本論文では、二人の対話に基づいて自然なジェスチャーを動的に生成し、音声によって駆動される全身の写実的なバーチャルヒューマンを生成するフレームワークが提案されています。

音声入力により、顔、体、手を含む多様なジェスチャーモーションをバーチャルヒューマンに生成することができます。本論文の手法の鍵は、ベクトル量子化によるサンプルの多様性と、拡散によって得られる高周波数の詳細を組み合わせることで、よりダイナミックで表現力豊かなモーションを生成することです。高度に写実的なバーチャルヒューマンを使用して生成されたモーションを可視化することで、ジェスチャー内の重要な微妙な違い(例:嘲笑や微笑)を表現できます。

本研究では、リアルな再構築のために初めて多視点対話データセットが導入されました。実験結果は、このモデルが適切かつ多様なジェスチャーを生成できることを示しており、単独で拡散またはベクトル量子化に依存する手法よりも優れた性能を発揮します。さらに、知覚評価は、メッシュに対してリアルタイム性が、対話中のジェスチャーにおける微妙な動きの詳細を正確に評価する際の重要性を強調しています。

方法の概要

私たちの手法は、対話音声を入力とし、それに応じた顔のエンコーディングと身体ジェスチャー姿勢を生成します。その後、これらの出力動作が訓練済みのアバター・レンダラーに送られ、現実的なビデオが生成されます。

動作生成

(a) 与えられた対話音声 A に対して、音声とリップ形状回帰ネットワーク L の出力に基づくディフュージョン・ネットワークを使用して顔の動き F を生成します。このネットワークは、音声から同期したリップ形状幾何学を予測することができます。

(b) 身体・手のポーズについては、まず VQ-Transformer を使用して低フレームレートでガイドポーズ P を自己回帰的に生成します。

(c) 次に、ポーズ拡散モデルはこれらのガイドポーズと音声を使用して高周波数の動作シーケンス J を生成します。

ガイドポーズシーケンスの多様性

対話の入力音声(金色でマークされた予測キャラクター音声)に基づき、トランスフォーマー P は異なる聴覚反応(上部)、話しジェスチャー(中部)、および発言挿入(下部)変化を持つガイドポーズシーケンスの多様なサンプルを生成します。

豊富な学習済みポーズコードブックからサンプリングすることで、P は指差し、くすぐり、拍手など、サンプル間で高い多様性を持つ「極端」なポーズを生成することができます。

これらの多様なポーズはその後、身体拡散モデル J を調整するために使用されます。

結果

対話の音声と同期したジェスチャー動作を生成しました:

  • キャラクターが聴いている期間(上部)において、私たちのモデルはアバターが集中して聞いているように見える静止動作を正確に生成します。

  • それに対して、話している期間(下部)では、モデルは音声と同期して動く多様なジェスチャーを生成します。

異なる方法を比較する

音声と動作の相関性 与えられた音声(上部)に対して、400フレームにおける各ポーズの平均的な中立ポーズからのL2距離をプロットしました。レンダリングされたアバターでは、オレンジ色の線が実際の状況でも見られる大动作のピーク(例えば、「ugh」という音に先立って手を振る動作)とよく一致しています。LDA [2](ピンク色)はこれらの尖鋭な動きを捉えていません。

Demo

デモ 自分でも試してみました:https://colab.research.google.com/drive/1lnX3d-3T3LaO3nlN6R8s6pPvVNAk5mdK?usp=sharing