アリババのEchoMimic - 肖像ビデオの生成

昨日、アリババの音声モデルについて紹介しました。本日はアリババのビデオモデル「EchoMimic」をご紹介します。肖像ビデオを生成することができ、音声と顔のランドマークだけでなく、音声と選択された顔のランドマークを組み合わせて生成することも可能です。先週公開されました。

概要

EchoMimicは肖像ビデオを生成でき、音声と顔のランドマークだけでなく、音声と選択された顔のランドマークを組み合わせて生成することも可能です。

肖像画像アニメーション分野では、音声入力を通じてリアルでダイナミックな肖像の生成に大きな進展が見られています。従来の方法は通常、音声または顔のキーポイントのみを使用して画像から動画を生成しますが、これらの方法は満足のいく結果を生む一方で、いくつかの問題があります。例えば、音声のみを駆動源とする方法は、音声信号が弱い場合に不安定になることがあります。また、顔のキーポイントのみを駆動源とする方法は安定しているものの、キーポイント情報への過度な制御により結果が不自然になることがあります。EchoMimicは新しい訓練戦略を通じて、音声と顔のランドマークを同時に利用して訓練されます。これにより、EchoMimicは音声や顔のランドマークだけでなく、音声と選択された顔のランドマークを組み合わせて肖像ビデオを生成することができます。

アリババのEchoMimic - 肖像ビデオの生成

概要

シーン

音声駆動（中国語）

音声駆動（英語）

音声駆動（歌）

顔のランドマーク駆動

音声＋選択された顔のランドマーク駆動

ComfyUIでの使用

比較