最近オープンソース化されたいくつかのビデオ生成モデル

最近の数週間に公開された3つのオープンソースのビデオモデルを見てみましょう。SkyReels（昆仑万維）、StepVideo（スタートアップ企業StepFun）、Wan（阿里通義）。

SkyReels-V1

昆仑万維のSkyReels V1は最新のオープンソースです。テキストからビデオへの変換（Text-to-Video）そして画像からビデオへの変換（Image-to-Video）モデルおよび推論コードは、これまでにない画像生成体験をもたらします。

3つのコンテンツを含みます：

SkyReels-V1 テキストからビデオへの変換モデル
SkyReels-V1 画像からビデオへの変換モデル
SkyReels-A1肖像画イメージのアニメーションフレームワーク。

SkyReels V1 について

SkyReels V1 は、現在業界で最も進んだオープンソースの人間中心のビデオ基礎モデルであり、数千万件の映画・テレビ品質のデータでファインチューニングされています。HunyuanVideoこれにより、三大コアブレークスルーを実現しました：

オープンソースにおけるリーダーシップ：テキストからビデオへの変換モデルの性能は、オープンソース分野で最高レベルに達し、業界トップクラスのクローズドソースモデルである Kling と Hailuo に匹敵します。
卓越なフェイシャルアニメーション：33種類の表情と400以上の自然な動作の組み合わせを精密にキャプチャし、繊細な人間の感情を完全に表現します。
映画級のライティング美学：訓練データはハリウッド級の映像素材から来しており、各フレームが優れた映画的な構図、キャラクターの配置、そしてレンズ感覚を示しています。

🔑 コア特性

1. 自社開発のデータクリーニングおよびラベリングシステム

表情分類：33種類の人間の顔の表情を精密に区別。
空間キャラクター認識：3D人体再構築技術を使用して、複数人物の空間関係を深く理解する。
動作認識：400以上の動作意味単位を定義し、人間の行動を精密に解析します。
シーン理解：クロスモーダル分析により、服装、シーン、およびストーリーの関係を解析します。

2. 複数段階の画像から動画への事前学習

ステージ1：モデルのドメイン移行事前学習：数千万件の映画・テレビデータ上で、テキストからビデオへのモデルを人間中心のビデオ領域に移行します。
ステージ2：画像からビデオモデルの事前学習：第一段階のモデルを画像からビデオのモデルに変換し、事前学習を行います。
ステージ3：高品質ファインチューニング：高品質のサブデータセットでモデルを微調整し、優れたパフォーマンスを確保します。

📊 ベンチマークテストでの優秀なパフォーマンス

VBenchテストの比較によると、SkyReels V1はオープンソースのテキストからビデオ（T2V）モデルの中で最高のパフォーマンスを発揮し、総合評価が82.43に達しました。これはVideoCrafter-2.0 VEnhancer（82.24）やCogVideoX1.5-5B（82.17）を上回り、特に動的表現と複数物体処理能力において際立っています。

🚀 SkyReels Infer 推論フレームワーク

SkyReelsInferは、効率的なビデオ推論フレームワークであり、高品質なビデオ生成速度を大幅に向上させます。

複数GPU対応：コンテキスト並列処理、CFG並列処理およびVAE並列処理をサポート。
消費者向けGPU展開：モデルの量子化とパラメータのオフロードにより、大幅にVRAMの必要量を削減。
優れた推論性能：HunyuanVideo XDiTよりも推論速度が58.3%向上し、業界の新しい標準を確立しました。
優れた使いやすさ：Diffusersオープンソースフレームワークに基づき、非侵襲的な並列実装を提供し、シンプルでフレンドリーな使用体験を実現します。

試用

https://www.skyreels.ai/

StepVideo-T2V

Step-Video-T2VはStepFun社によって開発されました。ステップファン（StepFun Technology Co., Ltd.）は、2023年4月に設立された中国の人工知能分野におけるハイテク企業です。同社は元マイクロソフトグローバル副社長である姜大昕博士によって設立され、大規模モデル技術の研究開発と応用に注力しており、人工知能技術を汎用人工知能（AGI）へと進化させるための取り組みを行っています。

紹介

Step-Video-T2Vは、業界をリードするテキストからビデオ（Text-to-Video）生成モデルで、最大300億のパラメータを持ち、最大204フレームのビデオを生成できます。訓練と推論の効率を向上させるため、私たちは深層圧縮のビデオ変分自己符号化器（Video-VAE）を開発しました。これにより、16x16の空間圧縮と8倍の時間圧縮が実現しました。さらに、Step-Video-T2Vは最終段階で直接嗜好最適化（Direct Preference Optimization、DPO）を適用し、ビデオの視覚品質をさらに向上させています。Step-Video-T2Vは、特別に設計されたビデオ生成ベンチマークStep-Video-T2V-Evalで優れたパフォーマンスを発揮し、他のオープンソースおよび商用モデルと比較して、テキストからビデオの生成において最先端のレベルに達しています。

モデル概要

Step-Video-T2Vのコアは、主に3つの主要なコンポーネントで構成されています：

1. ビデオ変分自己符号化器（Video-VAE）

私たちは、効率的なビデオVAEモデルを設計しました。このモデルは空間的に16x16の圧縮、時間軸では8倍の圧縮を実現し、訓練と推論の速度を大幅に向上させながら、ビデオ再構築の品質を良好に保っています。この圧縮方式は、拡散モデルで使用されるコンパクトな表現形式にも非常に適しています。

2. 3D全方位アテンション機構を持つ拡散Transformer（DiT）

Step-Video-T2VはDiTアーキテクチャに基づいて構築され、48層あり、各層には48個のアテンションヘッドが含まれ、各ヘッドの次元は128です。モデルはAdaLN-Singleを使用して時間ステップ条件を統合し、QK-Normを通じて自己注意機構での訓練の安定性を確保します。さらに、異なる長さや解像度のビデオシーケンスを効果的に処理するために、3D回転位置エンコーディング（3D RoPE）も採用されています。

3. ビデオ直接嗜好最適化（Video-DPO）

私たちは、ビデオベースの直接嗜好最適化手法を導入し、人間のフィードバックデータを使用してモデルを微調整しました。これにより、生成されるビデオコンテンツがより人間の直感や美的基準に適合するようになります。DPOは、視覚的アーティファクトの削減や、ビデオの連続性およびリアリズムの向上において重要な役割を果たしています。

上述の革新的な設計を通じて、Step-Video-T2Vはテキスト駆動型のビデオ生成分野で新しい基準を確立し、生成ビデオコンテンツ技術の発展と実用化の可能性を推進しました。

試用

https://yuewen.cn/videos

Wan2.1

Wan2.1は、阿里巴巴通義万相チームが開発した次世代ビデオ生成モデルです。

Wan2.1の主な機能

業界をリードするパフォーマンス： Wan2.1は、複数の主要なベンチマークテストで既存のオープンソースモデルやリーディングクラスの商業ソリューションを上回り、優れた生成能力と安定性を示しています。

消費級グラフィックカードに対応： Wan2.1のT2V-1.3Bモデルは8.19GBのVRAMで動作可能であり、ほぼすべての消費向けGPUに対応しています。RTX 4090グラフィックカード上で、約4分で5秒間の480Pビデオを生成でき、量子化などの追加最適化が不要です。その性能はいくつかのクローズドソースモデルに匹敵します。

マルチタスクを全面的にサポート：基本的なテキストからビデオ（Text-to-Video）機能に加え、Wan2.1は画像からビデオ（Image-to-Video）、ビデオ編集、テキストから画像（Text-to-Image）、およびビデオから音声（Video-to-Audio）タスクもサポートし、ビデオ生成分野の発展を全方位で推進しています。

強力なビジュアルテキスト生成能力：中英二か国語のビデオテキスト生成能力を持つ最初のビデオモデルとして、Wan2.1は優れたテキスト生成効果を備え、実際の応用シーンを広げています。

高効率ビデオVAE： Wan-VAEはその卓越した性能と効率で知られており、任意の長さの1080Pビデオを無制限にエンコードおよびデコードでき、時系列情報を完全に保持します。これは、ビデオおよび画像生成タスクに理想的なインフラです。

技術革新とアーキテクチャ設計

Wan2.1は主流の拡散Transformerアーキテクチャ（Diffusion Transformer）を採用し、一連の革新により生成性能を大幅に向上させました。これらの革新には以下が含まれます：

3D因果変分オートエンコーダー（Wan-VAE）：创新的な3D因果構造で、時空間圧縮効率を向上させ、メモリ使用量を削減し、ビデオ生成における因果関係と連続性を確保します。
ビデオ拡散DiTアーキテクチャ： Flow Matchingフレームワークに基づいて開発されたDiTアーキテクチャでは、T5エンコーダーを使用して多言語テキスト入力を処理し、Transformerブロックのクロス注意機構を通じてテキストを埋め込みます。さらに、時間埋め込みは共有MLP層によって調整され、生成性能が効果的に向上します。

データ構築と処理

Wan2.1は厳密なデータ選択と重複削除プロセスを通じて、大規模で高品質な画像および動画データセットを構築しました。4段階のデータクリーニングプロセスにより、基本次元、視覚的品質、動作品質が理想的なレベルに達し、モデルの学習効果を大幅に向上させました。

既存のリードモデルとの比較

Wan2.1のパフォーマンスを評価するために、チームは14の主要次元と26のサブ次元をカバーする1035個の内部プロンプトを含むテストを設計しました。人間の好みに基づく重み付けスコアを計算した結果、Wan2.1は多くの重要な指標で優れた成果を示し、既存のオープンソースおよびクローズドソースモデルを超える強力な実力を発揮しています。

Wan2.1の公開は、動画生成分野に新たな活力を与え、その開放性と先進性が開発者や研究者にさらなる可能性を提供し、より豊かで多彩な未来のビジュアルワールドの構築を支援します。

試用

https://huggingface.co/spaces/Wan-AI/Wan2.1

https://modelscope.cn/studios/Wan-AI/Wan-2.1

まず画像から動画を生成し、与えられたプロンプトは「Elon Musk goes to Mars」です：

火星には行かなかったが、歩き回っている

さらに二つのテキストから動画を生成します：