Mochi 1:オープンソースのビデオ生成モデル

もち 1 プレビュー版は、Apache 2.0ライセンスで公開されたオープンソースのビデオ生成モデルです。もち 1 は高忠実度の動きを再現し、強力なプロンプト応答能力を実現します。このモデルは、オープンソースと閉じたビデオ生成システム間のギャップを大幅に縮めています。

チーム紹介

Genmo のコアメンバーは、DDPM(ノイズ除去拡散確率モデル)、DreamFusion、Emu Video などのプロジェクトから来ています。また、Genmo の技術顧問チームには業界トップの専門家が含まれており、Databricks および Anyscale の共同創設者でエグゼクティブチェアマンの Ion Stoica、Covariant の共同創設者で OpenAI 初期チームメンバーの Pieter Abbeel、そして言語モデルシステムの先駆者であり Turi の共同創設者の Joey Gonzalez などが名を連ねます。

資金調達状況:2840万ドルのシリーズAラウンドで資金調達を行い、NEA が主導し Rick Yang がリードしました。参加機関には The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners、Essence VC があり、エンジェル投資家には Typespace CEO の Abhay Parasnis、Replit CEO の Amjad Masad、Sabrina Hahn、Bonita Stewart、Michele Catasta が含まれます。

Genmo の使命は、人工一般知能の右脳の可能性を解き放つことです。もち 1 は、現実存在するものや架空のものに関係なく、万物をシミュレートできる世界シミュレーターを構築する重要な第一歩です。

モデル評価

現在、ビデオ生成モデルと現実の間に大きな隔たりがあります。運動品質とプロンプト応答能力は、ビデオ生成モデルがまだ完全に備えていない二つの主要機能です。

もち 1 はオープンソースのビデオ生成において新しい業界標準を設定し、パフォーマンス面でリーディングポジションにあるクローズドモデルと非常に競争力のある性能を持っています。

  • :もち 1 はテキストプロンプトへの優れた応答能力を持ち、生成されるビデオは指示内容を正確に反映し、ユーザーにキャラクター、シーン、動作に対する詳細な制御を提供します。視覚言語モデルに基づく自動化指標を使用してプロンプト応答を評価し、OpenAI DALL-E 3 のプロトコルに従いながら、生成されたビデオを Gemini-1.5-Pro-002 モデルで評価しています。

  • :もち 1 は 30 フレーム毎秒で長さ 5.4 秒の滑らかなビデオを生成でき、高い時間的一貫性と現実的な運動ダイナミクスを備えています。このモデルは流体力学、髪や毛皮のダイナミクスなどの物理現象をシミュレートでき、一貫して滑らかな人間の動きを表現し、「アンカリング効果」を超えることができます。評価者は、単一フレームの美しさではなく運動表現に焦点を当てることが求められます(評価基準には動作の面白さ、物理的妥当性、滑らかさが含まれます)。Elo スコアは LMSYS Chatbot Arena プロトコルに基づいて計算されます。

試用

現在公開されているのは 480p ベーシック版で、今年末までにフルバージョンの Mochi 1、その中には Mochi 1 HD を発表する予定です。Mochi 1 HD は 720p ビデオ生成をサポートし、より高いディテール保真度とより滑らかな運動表現を持ち、複雑なシーンにおける画像歪みなどの極端な状況にも対応できます。モデルダウンロード: https://github.com/genmoai/models 公式サイト: https://www.genmo.ai/play

自分で使ってみましたが、効果はあまり良くありませんでした。开源コミュニティによって最適化され、パフォーマンスが向上することを期待しています :)

制約

研究プレビュー版として、もち 1 は動的に進化するチェックポイントであり、現在いくつかの既知の制約があります。初版は 480p ビデオ生成をサポートしており、極端な運動のエッジケースでは軽微な画像歪みや歪曲が発生することがあります。もち 1 は主にリアリスティスタイルに最適化されているため、アニメーションスタイルのコンテンツ生成には不向きです。さらに、チームはコミュニティが異なる美学要件に対応するためにモデルを微調整すると予測しています。

モデルアーキテクチャ

もち 1 はオープンソースのビデオ生成分野で顕著な進展を遂げ、100億パラメータを持つ拡散モデルを採用し、革新的な非対称拡散トランスフォーマー(AsymmDiT)アーキテクチャに基づいています。このモデルはゼロから訓練され、現在公開されている最大のビデオ生成モデルです。さらに重要な点として、このアーキテクチャはシンプルで変更が容易です。

モデルの効率は、コミュニティが Mochi 1 モデルを実行できるようにするために重要です。そのため、チームはビデオ VAE もオープンソース化しました。VAE は、空間的に 8x8 圧縮、時間的に 6 倍圧縮し、128 倍の因果圧縮を実現し、12 チャネルの潜在空間にビデオデータを圧縮します。

AsymmDiT は、テキスト処理を簡素化することで、ニューラルネットワークの計算リソースを視覚推論に集中させ、ユーザーのプロンプトと圧縮されたビデオトークンを効率的に処理します。AsymmDiT は多モーダル自己注意機構を使用してテキストと視覚トークンの両方に同時に注目し、各モーダルに対して独立した MLP 層を学習します。これは Stable Diffusion 3 に類似していますが、Mochi 1 は視覚ストリームにほぼテキストストリームの 4 倍のパラメータを配置し、より大きな隠れ次元で視覚情報を処理します。非正方形の QKV と出力投影層を通じて、自己注意機構の中でモーダル統合を実現します。この非対称設計により、推論時のメモリ要件が効果的に削減されます。

多くの現代の拡散モデルは、複数の事前学習済み言語モデルを使用してユーザーのプロンプトを処理しますが、Mochi 1 は単一の T5-XXL 言語モデルのみを使用してプロンプトをエンコードします。

Mochi 1 は最大 44,520 個のビデオトークンのコンテキストウィンドウで 3D アテンション推論を行います。各トークンの位置付けを実現するために、Mochi 1 は学習可能な回転位置埋め込み(RoPE)を三次元に拡張しています。ネットワークは空間軸と時間軸の混合周波数をエンドツーエンドで学習します。

Mochi 1 は、言語モデル拡張に関する最近の改良、例えば SwiGLU フィードフォワード層、安定性を強化するためのクエリ-キー正規化、内部アクティベーションを制御するためのサンドイッチ正規化なども活用しています。