バイトの Loopy オーディオ駆動ヘッドアバターアニメーションモデル

Loopyは、バイトダンスと浙江大学が共同で開発した音声駆動型のアバターアニメーション生成モデルです。現在、コードは公開されておらず、論文のみが存在します - https://loopyavatar.github.io/

Loopyはエンドツーエンドのオーディオ条件付きビデオ拡散モデルです。長期的な運動情報をデータから活用し、自然な運動パターンを学習し、音声とアバターの動きの関連性を向上させます。この方法では、既存の手法で一般的に使用される手動で指定する空間運動テンプレートが不要となり、さまざまなシーンでより現実的で高品質な結果を生成できます。

生成されたビデオの例

Loopyの技術フレームワーク

このフレームワークは、既存の手法で一般的に使用されている顔ロケーターと速度層モジュールを取り除いています。代わりに、提案されたクロスフラグメント/フラグメント内時間層とオーディオから潜在表現への変換モジュールを使用して、柔軟で自然な運動の生成を実現しています。

バイトの Loopy オーディオ駆動ヘッドアバターアニメーションモデル

生成されたビデオの例

Loopyの技術フレームワーク

他の方法との比較