快手のLivePortrait - 動画駆動アバターアニメーションフレームワーク

最近見た快手(Kuaishou)のGenAI関連製品はどれも非常に興味深いです。例えば、可灵ビデオ(強力なビデオ生成機能を持つ大規模モデルで、ユーザーが効率的にアートビデオを作成できる)、回森(AI修音を使用して携帯電話でカラオケ体験ができる)。そして先週オープンソース化されたLivePortraitというプロジェクトも見つけました。これはビデオ駆動型のアバターアニメーションフレームワークです。

実用シーン:

  1. 静止画像から肖像アニメーションを生成
  2. 肖像ビデオの編集
  3. 目や口唇のリダイレクション
  • 目のかぶり効果
  • 唇のかぶり効果
  • 汎用動物アニメーション
  • 使用方法

    Huggingface の LivePortrait プロジェクトを使用できます:

    1. オリジナル画像と表情動画をアップロードする

    2. 対応する表情の動画を作成する

    概要

    このフレームワークが依然として非常に有効であることを示しています。RTX 4090 GPU上でPyTorchを使用した生成速度は、著しく12.8msに達しました。

    実験手法

    1. 第一段階のプロセス:基礎モデルの訓練

    • 外観抽出器(𝐹)と運動抽出器(𝑀)、変形モジュール(𝑊)、デコーダー(𝐺)を最適化します。
    • この段階では、モデルがゼロから訓練されます。
  • 第二段階のプロセス:結合モジュールとリダイレクトモジュールの訓練

    • 第一段階で基礎モデルを訓練した後、外観と運動抽出器、変形モジュール、デコーダーを凍結します。結合モジュールとリダイレクトモジュールのみを最適化します。

    異なる方法の比較