MusePoseとFollow-Your-Pose:騰訊(テンセント)が発表したポーズ駆動型的人物動作技術

先月、アバターが話したり表情をつけたりするためのいくつかの技術を紹介しました。今回は、姿勢によってキャラクターを動かす技術について見てみましょう。

以前、画像を踊らせる💃技術についていくつか共有しました。例えば:

今回は、テンセントが公開した関連する2つの技術をご紹介します。

MusePose

:MusePoseは、ポーズ駆動型の画像からビデオへの変換フレームワークで、バーチャルヒューマン生成に使用されます。

リンク:https://github.com/TMElyralab/MusePose

:以前紹介したMuseTalkと同じく、テンセント内の特定チームによって開発されました。MusePoseはMuseオープンソースシリーズの最後のモジュールです。MuseVとMuseTalkを組み合わせることで、全身運動やインタラクション機能を持つバーチャルヒューマンをエンドツーエンドで生成するビジョンに向けて、コミュニティに私たちと一緒に参加してほしいと思います。次のマイルストーンをお楽しみに!

シーン

Model Architecture

MusePoseは、ポーズなどの制御信号に基づいて画像をビデオに生成するフレームワークです。現在公開されているモデルは、Moore-AnimateAnyoneを最適化して実現されたAnimateAnyoneです。

ComfyUIもサポートされています:https://github.com/TMElyralab/Comfyui-MusePose

Follow-Your-Pose

:Follow-Your-Poseは、「Follow-Your-Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos」論文の公式実装です。

リンク:https://github.com/mayuelala/FollowYourPose

:以前紹介したFollow-Your-Emojiと同じ著者によって開発され、清华大学(Tsinghua University)、清华深圳国際研究大学院(Tsinghua Shenzhen International Graduate School)、香港科技大学(HKUST)およびテンセントAI研究所(Tencent AI Lab)との共同研究です。

シーン

Model Architecture

Follow-Your-Poseのモデルアーキテクチャには、二段階のトレーニング戦略が含まれています:

  1. :姿勢エンコーダEpを訓練し、姿勢制御を学習します。
  2. :時間モジュールを訓練し、時間的自己注意(SA)とクロスフレーム自己注意を含みます。

推論プロセスでは、目標キャラクターの説明テキストと動作ポーズシーケンスを提供することで、時間的に一貫性のあるビデオを生成します。事前学習済みの安定拡散モデルの大部分のパラメータは凍結されており、疑似3D畳み込み層、クロス注意(CA)、およびフィードフォワードネットワーク(FFN)モジュールが含まれます。