2024年は、多くの人々にとってAI生成動画(AI Gen Video)の元年と見なされており、これはOpenAIなどの企業がビデオ生成技術で達成した大きな進歩に起因します。OpenAIが導入したSoraはこの分野の目覚ましい代表例であり、1分間のビデオを生成し、高い視覚品質を維持しながらユーザーのプロンプトに厳密に従うことができます。
OpenAIは、ビデオデータでの大規模トレーニングを通じて生成モデルを作り出し、「大規模なトレーニングがもたらす驚異(大力出奇迹)」を示しました。この方法の核心は、異なる長さ、解像度、アスペクト比のビデオや画像を処理できるテキスト条件付き拡散モデル(text-conditional diffusion models)を共同トレーニングすることです。これにより、Soraは静止画像だけでなく、動的なビデオコンテンツも生成でき、ユーザーにさらに豊かで多様な創作可能性を提供します。
OpenAIは、ビデオと画像の時空間ラテンコード(spacetime patches of video and image latent codes)上で操作可能な特別なTransformerアーキテクチャを採用しています。時空間パッチ上での操作により、Soraはビデオコンテンツ内の時間的連続性と空間的詳細を理解し、自然で滑らかなビデオシーケンスを生成することができます。
視覚データをパッチ(patches)に変換する
LLMがテキストトークンを持つように、Soraには視覚パッチ(visual patches)があります。以前の研究では、パッチが視覚データモデルの効果的な表現であることが示されています。我々は、パッチが非常にスケーラブルで効果的な表現であり、さまざまな種類のビデオや画像で生成モデルをトレーニングするのに適していることを発見しました。高レベルな観点から、まずビデオを低次元の潜在空間(lower-dimensional latent space)に圧縮し、その後その表現を時空間パッチ(spacetime patches)に分解します。
ビデオ圧縮ネットワーク
OpenAIは、視覚データの次元を削減するためのネットワークを訓練しました。このネットワークは元のビデオを入力とし、時間的および空間的に圧縮された潜在表現を出力します。Soraはこの圧縮された潜在空間内で訓練され、その後もこの空間内でビデオを生成します。さらに、生成された潜変数をピクセル空間に逆写像するための対応するデコーダーモデルも訓練しました。
時空間潜在パッチ
圧縮された入力ビデオが与えられた場合、一連の時空間パッチを抽出します。これらのパッチはトランスフォーマーのトークンとして機能します。この手法は画像にも適用可能です。なぜなら、画像は単一フレームのビデオに過ぎないからです。我々のパッチベースの表現により、Soraは異なる解像度、持続時間、アスペクト比を持つビデオや画像で訓練することができます。推論時には、適切なサイズのグリッドにランダムに初期化されたパッチを配置することで、生成されるビデオのサイズを制御できます。
ビデオ生成用のトランスフォーマーの拡張
Soraはディフュージョンモデルです。ノイズのあるパッチ(およびテキストプロンプトなどの条件情報)が与えられると、元の「クリーン」パッチを予測するように訓練されています。重要な点として、Soraはディフュージョントランスフォーマーです。トランスフォーマーは、言語モデリング、コンピュータビジョン、画像生成など、さまざまな分野で著しいスケーラビリティ特性を示しています。ディフュージョントランスフォーマーもまた、動画モデルとして効果的に拡張できます。トレーニング計算量が増加すると、サンプル品質が大幅に向上します。
可変持続時間、解像度、アスペクト比
以前の画像および動画生成手法は、通常、動画をリサイズ、トリミング、またはクリッピングして標準サイズに調整します。例えば、256x256解像度の4秒間の動画です。私たちは逆に、データをその元のサイズで学習させることでいくつかの利点があることを発見しました。
Soraはワイドスクリーンの1920x1080p動画、縦型の1080x1920動画、そしてそれらの中間のすべてをサンプリングすることができます。これにより、Soraは異なるデバイスのネイティブアスペクト比で直接コンテンツを作成することが可能です。また、フル解像度での生成前に低解像度のコンテンツを迅速にプロトタイピングすることも可能で、これらすべてを同じモデルを使用して行います。
実験を通じて、元のアスペクト比のビデオでトレーニングを行うことで、構図とレイアウトが改善されることを発見しました。私たちはSoraを、すべてのトレーニングビデオを正方形にトリミングしたモデルのバージョンと比較しました。これは生成モデルを訓練する際の一般的な手法です。正方形トリミングで訓練されたモデル(左側)は、主題が視野内に部分的にしか表示されないビデオを生成することがあります。これに対して、Sora(右側)からのビデオには改善された構図があります。
言語理解
DALL·E 3で導入したリタイトリング技術をビデオにも適用しました。まず、非常に説明的なタイトル生成モデルをトレーニングし、それを使用してトレーニングセット内のすべてのビデオにテキストタイトルを付与します。非常に説明的なビデオタイトルでのトレーニングにより、テキストの正確性やビデオの全体的な品質が向上することがわかりました。DALL·E 3と同様に、GPTを使用して短いユーザーのプロンプトをより長い詳細なタイトルに変換し、その後ビデオモデルに送信します。これにより、Soraはユーザーのプロンプトに正確に従った高品質のビデオを生成できます。
画像とビデオを使ったプロンプト
Soraは、画像とプロンプトを入力として動画を生成することができます。以下では、DALL·E 2およびDALL·E 3の画像に基づいて生成されたサンプル動画を示します。
これらのビデオはすべて、生成されたビデオの一部から後ろに拡張されていきます。したがって、この3つのビデオの開始はそれぞれ異なりますが、同じ結末で終わります。
私たちはこの方法を使用して、ビデオを前後に拡張し、シームレスな無限ループを作り出すことができます。
Diffusionモデルは、テキストプロンプトから画像やビデオを編集するための多くの手法を提供します。以下では、その手法の一つであるSDEditをSoraに適用しました。この技術により、Soraはzero-shotで入力ビデオのスタイルや環境を変換することが可能です。
さらに、Soraを使用して2つの入力ビデオの間で逐次補間を行い、異なる主題やシーン構成の間でシームレスなトランジションを作成することもできます。以下の例では、中央のビデオが左右に対応するビデオの間で補間されています。
画像生成
これは、単一フレーム時間長さの空間グリッドにガウスノイズブロックを配置することで実現されます。このモデルは最大2048x2048ピクセルまでの解像度でさまざまなサイズの画像を生成することができます。この手法は、Soraが画像生成タスクを処理する際の柔軟性と効率性を示しており、ユーザーの高品質で高解像度の画像に対する要求に対応できます。この技術により、Soraは詳細の質を損なうことなく、さまざまなサイズやスタイルの画像を創造し、ユーザーに広範な創作可能性を提供します。
新興能力
これらの能力により、Soraは現実世界の人間、動物、環境の一部を模倣することができます。これらの特性は、3Dや物体などに関する明確な帰納的バイアスなしに自然と現れるものであり、純粋に規模効果による現象です。
ソラは、動的なカメラ移動を持つビデオを生成することができます。カメラが移動したり回転したりするにつれて、人物やシーンの要素が3次元空間内で一貫して動き続けます。
ビデオ生成システムにとって、長いビデオにおける時間的一貫性を維持することは常に大きな挑戦でした。ソラは通常、短距離および長距離の依存関係を効果的に模倣することができます。例えば、私たちのモデルは、人物、動物、物体が遮られたり画面から離脱したりした場合でもそれらを保持し続けることができます。同様に、単一のサンプル内においても同じキャラクターの複数のショットを生成し、その外観を全体のビデオを通じて維持します。
ソラは、時として世界の状態に単純な方法で影響を与える動作をシミュレートすることができます。例えば、画家がキャンバスに新しい筆跡を残すことができ、それは時間と共に持続します。または、一人がハンバーガーを食べるときに噛み跡を残すことができます。
ソラは、Minecraftにおけるプレイヤーを基本的な戦略で同時に制御し、その世界とダイナミクスを高精細でレンダリングすることができます。「Minecraft」といったキーワードを示すことで、これらの能力をゼロショットで引き出すことが可能です。
制約条件
ソラは、ガラスが割れるなどの多くの基本的な相互作用の物理プロセスを正確にシミュレートすることはできません。また、食べ物を食べるといった他の相互作用は、必ずしも物体の状態に正しい変化をもたらさないことがあります。さらに、モデルの他の一般的な失敗モードも挙げています——例えば、長時間のサンプル中に現れる不一致や物体の突然の出現などです。
結論
私たちは、Soraが現在示している能力が、物理世界とデジタル世界、そしてその中にある物体、動物、人間を模倣できる有力なシミュレーターを開発するための希望ある道であると考えます。限界は存在しますが、これらの進歩はモデルの規模と複雑さを増すことで、徐々にこれらの課題を克服できることを示しており、私たちの周りの世界を詳細にシミュレートできるAGI(人工一般知能)の創出にさらに近づいています。