マイクロソフト GAIA：ZERO-SHOTの口パク単一画像からのビデオ生成技術

先月の終わりに、マイクロソフトは「GAIA: ZERO-SHOT TALKING AVATAR GENERATION」という論文を公開しました。これはマイクロソフトのリップシンクビデオ生成技術に関するものです。論文はこちら：https://arxiv.org/abs/2311.15230。

DemoとCodeのサイトには現在アクセスできませんが、いくつかの例を見ることができます。

動作原理

GAIAの動作原理は以下の図に示されています：

GAIAはVAE（Variational Autoencoder）とディフュージョンモデルで構成されています。VAEは、各ビデオフレームを運動と外見の表現にエンコードし、この解離された表現から元のフレームを再構築します。その後、ディフュージョンモデルは、音声シーケンスとビデオクリップ内のランダムなフレームに基づいて運動シーケンスを生成するために最適化されます。推論時には、ディフュージョンモデルが入力された音声シーケンスと参照ポートレート画像に基づき、運動シーケンスを生成し、それをVAEのデコーダーを使ってビデオに変換します。

効果のデモ

GAIAは、最先端の音声ベースの手法との定性的比較を行っています。その結果、自然さ、リップシンクの品質、視覚的品質、運動の多様性において、GAIAがより高いレベルを示していることがわかります。一方で、他のベースライン手法は参考画像に過度に依存するため、軽微な運動（例えば、参考画像の目が閉じている場合、多くのベースライン手法は閉じた目の結果を生成する）や不正確なリップシンクを生成することがあります。

他の技術との比較

以下はGAIAと他の技術の比較です：

自然度：GAIAが優勝しており、生成されるビデオはより自然です。
リップシンクの品質：GAIAは他の技術よりも優れており、唇の動きが音声とより一致しています。
視覚的品質：GAIAの視覚的品質は高く、詳細がより鮮明です。
運動の多様性：GAIAは運動の多様性において優れ、生成されるビデオはより生き生きとしています。