快手のLivePortrait - 動画駆動アバターアニメーションフレームワーク

2024-07-09ルネー創業犬

最近見た快手（Kuaishou）のGenAI関連製品はどれも非常に興味深いです。例えば、可灵ビデオ（強力なビデオ生成機能を持つ大規模モデルで、ユーザーが効率的にアートビデオを作成できる）、回森（AI修音を使用して携帯電話でカラオケ体験ができる）。そして先週オープンソース化されたLivePortraitというプロジェクトも見つけました。これはビデオ駆動型のアバターアニメーションフレームワークです。

実用シーン：

静止画像から肖像アニメーションを生成：
肖像ビデオの編集：
目や口唇のリダイレクション：

目のかぶり効果
唇のかぶり効果

汎用動物アニメーション：

使用方法

Huggingface の LivePortrait プロジェクトを使用できます：

オリジナル画像と表情動画をアップロードする。
対応する表情の動画を作成する。

概要

このフレームワークが依然として非常に有効であることを示しています。RTX 4090 GPU上でPyTorchを使用した生成速度は、著しく12.8msに達しました。

実験手法

第一段階のプロセス：基礎モデルの訓練

外観抽出器（𝐹）と運動抽出器（𝑀）、変形モジュール（𝑊）、デコーダー（𝐺）を最適化します。
この段階では、モデルがゼロから訓練されます。

第二段階のプロセス：結合モジュールとリダイレクトモジュールの訓練

第一段階で基礎モデルを訓練した後、外観と運動抽出器、変形モジュール、デコーダーを凍結します。結合モジュールとリダイレクトモジュールのみを最適化します。

異なる方法の比較