バイトダンスのOmniHuman-1：一枚の人体画像からリアルな人体ビデオを生成

2025-02-07ルネー創業犬

OmniHuman-1は、バイトダンスが提案したエンドツーエンドのマルチモーダル条件に基づく人間のビデオ生成フレームワークであり、単一の人間画像と動作信号（音声、ビデオ、またはその両方）を使用して現実的な人体ビデオを生成できます。現在、OmniHuman-1は公開APIやダウンロードチャネルは提供しておらず、論文のみが存在します。

多様なビデオ生成能力

、主な特徴は以下の通りです：

：単一の入力画像とオーディオ（一部のビデオドライバーサンプルを除く）を使用して、異なるスタイルの人間のビデオを生成できます。
さまざまなアプリケーションシナリオに適用可能です。

コアイノベーションポイント

マルチモーダル運動条件混合トレーニング戦略：

混合トレーニング戦略を通じて、モデルは異なるモーダル（音声、映像など）のデータを使用して訓練を行うことができ、データの利用効率を向上させます。
この手法は、以前のエンドツーエンド手法が高品質なデータの希少性により制限されていた問題を克服しました。

より現実的なビデオ生成：

既存の方法と比較して、OmniHumanは特に音声などの弱い入力信号に基づいて、非常にリアルな人体のビデオを生成できます。
任意のアスペクト比の入力画像に対応しており、顔画像、上半身画像、全身画像などに対応し、異なるシーンの要件に適応します。

具体的な機能デモ

音声駆動 (Talking)

任意のアスペクト比の入力画像をサポートしています。
、ビデオ内の人物が音声に自然に合わせてジェスチャー動作を行うようにします。
（例：TED、Pexels、AIGC）。

多様性 (Diversity)

、各スタイルの独特な特徴に合った動きを確保します。

上半身のジェスチャー (More Half-body Cases with Hands)

手の動きを強調する上半身のビデオケースが追加され、キャラクターの手部動作の滑らかさと現実感が重視されています。

肖像ビデオ (More Portrait Cases)

のテスト結果に焦点を当て、CelebV-HQデータセット内のサンプルを使用して実験を行いました。

歌う (Singing)

ハイトーンの歌まで対応でき、音楽ジャンルに応じて動きのスタイルを調整できます。
生成品質は参照画像の品質と密接に関係しています。

ビデオドライブ互換性 (Video Driving Compatibility)

により、OmniHumanはオーディオ駆動に対応するだけでなく、ビデオ駆動も可能であり、
特定の身体部位の動作を制御します。

技術アーキテクチャ

OmniHuman は、二つのコア部分で構成されています：

OmniHuman モデル

に基づいて
など、多种モーダル条件入力をサポートし、複数のモーダルを同時に融合して制御することができます。

オールコンディショントレーニング戦略

運動に関連する条件の複雑さに基づき、モデルの能力を段階的に最適化します。
大規模なマルチモーダルデータを活用してモデルの汎化能力を向上させ、生成される動画の現実感と安定性を高めます。

このアーキテクチャは、OmniHumanがさまざまな入力条件下でも高品質で自然かつ滑らかな人体ビデオを生成できるように保証します。