バイトが最新で公開した口パ型ビデオ生成ツール LatentSync

LatentSyncは、オーディオ条件付き潜在拡散モデルに基づくエンドツーエンドのリップシンクロフレームワークです。ピクセル空間での拡散または2段階生成の拡散モデルによる従来のリップシンクロ方法とは異なり、LatentSyncは中間の運動表現を必要としません。このフレームワークはStable Diffusionの強力な能力を利用して、音声-視覚の複雑な関連性を直接モデリングします。さらに、チームは異なるフレーム間での拡散プロセスの不整合により、時間的一貫性が低いことが分かっています。この問題に対処するために、LatentSyncチームはTemporal REPresentation Alignment (TREPA)を提案しました。これにより、リップシンクロの精度を維持しながら、時間的一貫性を向上させることができます。TREPAは、大規模な自己監督型ビデオモデルから抽出された時間表現を使用して、生成されたフレームを実際のフレームに合わせます。

Demo

オリジナル生成物

技術的な枠組み

LatentSyncは、Whisperを使用してメルスペクトログラムを音声埋め込みに変換し、クロスアテンション層を通じてU-Netに統合します。参照フレームとマスクフレームは、ノイズが加えられた潜在表現とチャネル次元で連結され、U-Netの入力として使用されます。訓練中には、チームは予測されたノイズから一歩法で推定されたクリアな潜在表現を取得し、それを解码して推定されたクリアなフレームを得ます。TREPA、LPIPS、およびSyncNetの損失がピクセル空間に追加されます。

リンク🔗

  • コード - https://github.com/bytedance/LatentSync 

  • HuggingFace Space - https://huggingface.co/spaces/fffiloni/LatentSync 

  • モデル - https://huggingface.co/chunyu-li/LatentSync

  • Colabhttps://colab.research.google.com/drive/1HoXxM6MIFXw3NPDM2URIxToGBbhLQXMQ

  • Replicate - https://replicate.com/bytedance/latentsync