最近見た快手(Kuaishou)のGenAI関連製品はどれも非常に興味深いです。例えば、可灵ビデオ(強力なビデオ生成機能を持つ大規模モデルで、ユーザーが効率的にアートビデオを作成できる)、回森(AI修音を使用して携帯電話でカラオケ体験ができる)。そして先週オープンソース化されたLivePortraitというプロジェクトも見つけました。これはビデオ駆動型のアバターアニメーションフレームワークです。
実用シーン:
静止画像から肖像アニメーションを生成: 肖像ビデオの編集: 目や口唇のリダイレクション:
目のかぶり効果 唇のかぶり効果
使用方法
Huggingface の LivePortrait プロジェクトを使用できます:
オリジナル画像と表情動画をアップロードする。 対応する表情の動画を作成する。
概要
このフレームワークが依然として非常に有効であることを示しています。RTX 4090 GPU上でPyTorchを使用した生成速度は、著しく12.8msに達しました。
実験手法
第一段階のプロセス:基礎モデルの訓練
外観抽出器(𝐹)と運動抽出器(𝑀)、変形モジュール(𝑊)、デコーダー(𝐺)を最適化します。 この段階では、モデルがゼロから訓練されます。
第二段階のプロセス:結合モジュールとリダイレクトモジュールの訓練
第一段階で基礎モデルを訓練した後、外観と運動抽出器、変形モジュール、デコーダーを凍結します。結合モジュールとリダイレクトモジュールのみを最適化します。