「OnBoard!」OpenAI Sora（上）ポッドキャスト - ノート1

『OnBoard!』がAIに関するポッドキャストを更新するたびに、少なくとも一回は聞きます。最近では、Soraに関する内容が上下二部構成のエピソードで紹介されました。上編は技術的な視点から、下編はベンチャーキャピタルと投資家の視点から語られています。私にとって、上編にはより実用的な情報が多く含まれていたため、メモを取りました。オリジナルの効果を体験したい方は、ぜひ元のポッドキャストをお聞きください。

：シリコンバレーのAI研究者が見る技術革新とその限界、マルチモーダル融合およびワールドモデル、Castboxでこのエピソードをチェック！https://castbox.fm/vd/674774452
：第一線の投資家や起業家が見るAI応用の新しい局面、Castboxでこのエピソードをチェック！https://castbox.fm/vd/675169827

二名のゲスト紹介

Google VideoPoetの于力軍、個人ページ：https://me.lj-y.com/
エディンバラ大学の符尧、個人ページ：https://franxyao.github.io/

于力軍の自己紹介

CMUの博士課程学生で、長期にわたりGoogleでインターンとして働いています。

研究の経緯概要：

：ビデオ理解分野の研究に焦点を当てています。
：ビデオ生成研究分野へとシフトしました。

ビデオ生成研究の初期段階では、離散トークンとTransformer技術の応用が探求されました。

2022年には、MAGVIT（Masked Generative Video Transformer）フレームワークの提案に参加しました。これは革新的なビデオ生成用のTransformerフレームワークです。2023年には、Language Model DiSK Diffusionやビデオの潜在表現技術に関する研究も進められました。

Googleでは、VideoPoetプロジェクトの開発に参加しました。これは自己回帰型言語モデルに基づくフレームワークで、単一モダリティに限定されず、複数モダリティの入力を処理および生成することができます：

テキストからビデオ
画像からビデオ
ビデオをオーディオに変換
ビデオ編集

マルチモーダル分野での作業の他、VideoPoetプロジェクトにおいて多くのスケーリング実験を行いました。

ディフュージョン・トランスフォーマーの作業W.A.L.Tに参加し、MAGVIT v2の潜在空間におけるディフュージョン訓練も行いました。

トランスフォーマーを基盤としたビデオ処理において、マスク・トランスフォーマー、オートレグレッシブ・トランスフォーマー、ディフュージョン・トランスフォーマーの複数分野の研究経験を持つ稀有的人材です。

符尧の自己紹介

エディンバラ大学の博士課程学生。

研究分野は主に大規模言語モデルに焦点を当てています。

初期段階では、モデルの拡張（Scale Up）に研究が集中しており、推論能力の向上や長文コンテキスト処理技術の開発が含まれます。言語モデルが継続的に拡大するにつれて、それらは次第にGPT-4やGeminiのようなマルチモーダルモデルへと進化しました。これらのモデルはテキストに限定されない多種類の入力を処理することができます。

ポッドキャストで議論された一部のトピック

Google VideoPoet と OpenAI Sora の比較

「日本の街角」ビデオを例に挙げて：

Soraは連続性において優れており、カメラの切り替え時にキャラクターの顔の特徴の一貫性を維持でき、背景生成も高い連続性を保ち、ビデオがより自然で現実的に見えるようにしています。

Soraと比較すると、VideoPoetには解像度とビデオ長さに制限があります。128解像度から512まで拡張は可能ですが、Soraの1920解像度と比較するとまだ大きな差があります。また、VideoPoetは主に2〜5秒のビデオクリップの生成に焦点を当てており、Soraは最大60秒のビデオを生成できるため、長さに関しては顕著な利点を持っています。

解像度や長さの制限があるにもかかわらず、VideoPoetはビデオ内の意味的連続性の処理や、前景と背景の分離において優れたパフォーマンスを発揮し、良好な一貫性を維持しています。

ソラ最重要的な革新

：ソラは潜在拡散トランスフォーマーモデルを採用しており、Auto-Encoderとトランスフォーマー技術を組み合わせています。これにより、pixel spaceとlatent spaceの間で変換を行い、空間的にも時間的にも圧縮を実現します。これはStable Diffusionモデルに類似しています。
：ソラは純粋なトランスフォーマーモデルを使用しており、他のUNet画像生成モデルのように畳み込みニューラルネットワークに依存していません。これはビデオ生成分野において比較的新しいアプローチです。
：Soraは異なる解像度、アスペクト比、時間長さのビデオを訓練できるため、モデルの柔軟性と適応性が向上します。
：Soraの大規模モデルと大量の訓練計算力により、高品質なビデオを生成することが可能です。
：高品質データセットでトレーニングを行うことは、現実的なビデオを生成する上で非常に重要です。
：3D CNNなどのビデオに適したネイティブ構造を使用して、ビデオデータの処理を最適化します。
：離散符号化を連続符号化に変換します。VideoPoetも同様のことを試みましたが、リソースの制限により実現できませんでした。
：追加の一貫性モデルが含まれる可能性があり、これによりビデオの連続性と一貫性が向上します。

ソラの予想外な点

：ソラは追加の超解像（super resolution）やアップサンプリング（up sampling）モデルを必要とせずに、直接高解像度ビデオを生成することができます。これは、追加の後処理ステップを必要とせず、ソラがモデルから直接高品質なビデオコンテンツを生成できるということを意味します。これにより、生成効率が低くなり、時間がかかる場合がありますが、技術的には非常に進んだ能力です。
：Soraは、映像の品質を維持しながら、その高い圧縮能力を示しています。以前のモデルが128解像度の1〜2秒のビデオを表すために1000トークン必要だったのに対し、Soraは同程度またはそれ以上の圧縮効率で、1080pの最大10秒のビデオを生成できます。この高い圧縮効率により、Soraはより長いビデオシーケンスを処理でき、同時にビデオコンテンツの品質と詳細を維持します。
：Soraの技術アーキテクチャは、最大100万（1m）長さのシーケンスを処理する能力を持っています。これは、ビデオ生成分野において大きな挑戦です。これほど長いシーケンスを処理するには、効率的な注意機構とモデルアーキテクチャが必要であり、計算の実現可能性と効率を確保する必要があります。大規模言語モデルと比較すると、一部のモデルは分散型の真の注意機構や、長文コンテキストウィンドウ向けに特別に設計された技術を採用しており、これらは長内容ウィンドウを処理するための鍵となります。

なぜ圧縮が重要なのか？

：Transformerモデルは非常に大規模なデータを処理でき、最大で100万トークンに達します。圧縮率を向上させることで、latent encoderは大規模データセットをより効率的に処理できるようになります。これは、より少ない計算コストでより多くの情報を処理できることを意味し、全体的なデータ処理効率が向上します。特に大量のデータを処理する必要があるタスク、例えばビデオ生成や自然言語処理などで重要です。
：Soraモデルにおいて、latent spaceからピクセルチャネルへのデコードプロセスは、モデルが学習した高次元の意味情報を可視化された出力に変換する役割を果たします。この変換プロセスは、モデルが高品質な出力を生成するための鍵となります。変換プロセスにおける「橋渡し」部分を十分に広くすることで、情報の損失を減らすことができます。これにより、モデルは内部表現の意味情報をより正確に視覚出力に変換でき、よりリアルで高品質なビデオコンテンツを生成することが可能です。

言語モデルとマルチモーダルモデルのTransformerは設計と機能においてどのような違いがありますか

処理方式とモダリティ（Modality）

：通常、テキストデータに焦点を当てており、自己回帰法を使用してテキストを生成します。次の単語や文を一貫して予測することができます。これらのモデル、例えばGPTシリーズは、主に単一モダリティ（テキスト）の入力処理のために設計されています。最新のモデルではマルチモーダルデータ（画像+テキストなど）の処理を試みていますが、その主要な強みは依然として言語の理解と生成にあります。
：ビデオコンテンツの生成に焦点を当てており、テキスト、画像、音声といったさまざまな種類のデータを処理し理解する必要があります。これは、Soraが異なるモダリティの入力をビデオ出力に変換できるように設計されていることを意味します。これは、単純にテキストデータを処理するよりもずっと複雑なタスクです。

出力内容

：主にテキストであり、マルチモーダルな入力を処理している場合でも、出力は通常テキスト形式です。例えば、画像を説明するテキストを生成します。
：Soraなどのビデオモデルの出力はマルチモーダルであり、テキストや画像に限定されず、ビデオ自体も含まれます。これらのモデルはLLMとは設計が異なり、以下の可能性があります：

：例えば、独立した画像デコーダーを使用するか、データをStable Diffusionのような特定の潜在空間にマッピングして、ビデオ生成能力を強化します。
：VideoPoetなどのモデルは、Transformerフレームワーク内で直接ビデオ生成を実現します。これは、ビデオフレームをピクセル空間内のトークンとして表現し、Transformerを使用してビデオコンテンツを生成することを含みます。
：Soraのトレーニングは拡散デノイジング法を採用しており、デコーディングプロセスは非自己回帰的な拡散プロセスに基づいています。

モデルアーキテクチャと学習方法

：大量のテキストデータを使用して事前学習を行い、自己回帰方式で言語パターンを学習し、特定のタスクに対して微調整される可能性があります。
：伝統的なTransformerアーキテクチャと、ビデオ生成に特化した技術（例えば、拡散モデルや潜在空間マッピング）を組み合わせており、その学習方法も標準的なLLMとは異なり、ビデオコンテンツの生成に重点が置かれています。

Soraが示す新規能力についてどう考えるべきか

大規模モデル分野において、エマージェント能力とは、小規模モデルでは見られなかったが、スケールを拡大した後に突然現れる能力を指します。これらの能力は通常、モデルのスケール拡大に伴うパフォーマンス向上であり、その向上は突然で予測不可能です。しかし、エマージェント能力には議論があります。一部の研究によると、エマージェント能力の出現は評価方法の選択に関連している可能性があります。非線形または不連続な評価方法を使用すると、モデルはエマージェント能力を示すように見えますが、線形計量方式に変更すると、その能力はそれほど目立たなくなり、あるいは消失する可能性があります。

Soraのエマージェント能力についてみると、モデルのスケールが増加するにつれて、より豊かで複雑なコンテンツを生成できるようになります。例えば、複雑な概念を理解し表現する能力や、生成されるシーンにおける前景と背景を区別し、さらには背景の異なる部分を個別に処理することも可能になります。以前のVideoPoetでは、異なるモダリティの処理と融合において顕著な進展がありました。例えば、テキストからビデオへの変換、さらにビデオから音声への変換を行い、生成されたビデオに適切な効果音を追加したり、ビデオ内の楽器に応じて適切な音楽を付加することで、モデルがビデオを理解していることが示されました。

ビデオ理解タスクにおけるディフュージョンモデルの応用はまだ探索段階にあります。自己回帰モデルが次のピクセルやフレームの値を直接予測するのとは異なり、どのようにしてディフュージョン技術を効果的にビデオ理解と生成に適用するか、そしてその技術的な詳細やベストプラクティスは未解決の研究課題です。

ディフュージョントランスフォーマーと自己回帰（Auto-regressive, AR）トランスフォーマーを組み合わせることは可能でしょうか？

ディフュージョントランスフォーマーと自己回帰（Auto-regressive, AR）トランスフォーマーの組み合わせは、先端的かつ大きな可能性を持つ研究分野であり、画像やビデオなどの複雑な高次元データを処理する際に新しい解決策や洞察を提供するかもしれません。このアプローチは実行可能であり、モデルの予測能力やマルチモーダルデータの処理能力にポジティブな影響を与える可能性があります。

潜在の結合利点

モデルアーキテクチャの柔軟性：Mixture of Experts（MoE）などのフレームワークを採用することで、一つのモデルに複数の予測エキスパートを統合できます。この設計により、一部のエキスパートは自己回帰モデル特有の次の単語予測に専念し、他のエキスパートはDiffusionモデルのノイズ除去予測に集中することができます。このような柔軟なアーキテクチャ設計は、モデルがさまざまなタスクを処理する能力を向上させ、異なるニーズに応じて動的に調整可能にします。
並列予測の利点：DiffusionモデルとARモデルを組み合わせることで、より効率的な並列予測メカニズムを実現できる可能性があります。Diffusionモデルは生成プロセス中に全体的なグローバル情報を考慮でき、ARモデルは既に生成されたコンテキストに基づいて新しい各ユニット（例えば文字やピクセル）を予測します。この組み合わせは高次元データを処理する際に効率と精度を向上させることが期待されます。

マルチモーダルデータ処理の強化

この結合方式は、モデルがテキスト、画像、ビデオなどのマルチモーダルデータを処理および生成する能力を強化するのに役立ちます。同一のフレームワーク内で異なるタイプのデータを理解し生成することで、モデルはデータ間の内在的な関係をよりよく把握し、より豊かで正確なマルチモーダル出力を実現できます。

深層理解の鍵

リチャード・ファインマン（Richard Feynman）が言ったように：「私が作り出せないものは、理解していない」。異なる生成技術を組み合わせることで、モデルはデータの本質を創造する過程でより深い理解を得ることができます。この深層理解こそが、真に多モーダルデータを理解できる基礎モデルを構築するための鍵です。

AIモデルの生成能力は理解を意味するか？

AIモデルは特定の物理法則を尊重しますが、これは訓練中に観察されたものです。しかし、モデルが従う物理法則は人間の理解方式とは異なります。言語は人間の論理に従いますが、ビデオはモデル独自の理解を反映しています。モデルは既知の法則を総括するだけでなく、未知の法則を発見する可能性もあります。では、どのようにしてそれが新しい法則を総括したとわかるのでしょうか？それは言語を通じて検証され、人間との効果的なコミュニケーションが可能であるかどうかによって判断されます。

スケーリング法則（scaling law）の観点から、自己回帰（AR）モデルとディフュージョンモデルはデータ処理や学習タスクにおいてどのような違いがありますか？

目的関数の違い

自己回帰（AR）モデル：ARモデルは、シーケンス内の次の単語やピクセルを予測することで予測損失を最小化し、無損失圧縮に適しています。モデルの規模が増加することは通常、より高い予測精度とデータ圧縮効率を意味します。
Diffusionモデル：ARモデルとは異なり、Diffusionモデルの目標はノイズを導入して徐々に除去することによってデータを生成することです。この目標はデータ圧縮に限定されず、生成品質やデータ分布の近似に重点を置いています。

データ形式への適合性

自己回帰（AR）モデル：特にテキストのような離散データタイプの処理に適しています。テキスト生成や音楽作成などの系列化タスクにおいて、ARモデルは次の最も可能性の高い出力を段階的に予測することができます。
拡散モデル：連続データ（画像や動画など）の処理に適しています。このモデルはガウスノイズの制御と調整を通じて、実際の分布に近い連続データを生成するため、画像や動画生成タスクで優れたパフォーマンスを発揮します。

モデル規模と性能の関係

学習の難易度と表現能力：拡散モデルは連続空間内で直接操作を行うため、連続データを処理する際に比較的小さなモデル規模でも良い結果が得られることがあります。一方で、ARモデルは離散データを処理する場合、複雑なシーケンス依存関係を捉えるためにより大きなモデル規模が必要となることがあります。
モデル拡張（Scaling）効果：ARモデルの規模を拡大することで、通常予測精度やデータ圧縮効率が向上します。一方、拡散モデルの拡張は主に生成データのリアルさと多様性の向上に焦点を当てています。

世界モデルとは何か

世界モデル（World Models）は、現実世界のダイナミクスや法則をシミュレーションし、理解することを目指したコンピューターモデルです。このモデルは過去と現在のデータを分析し、未来の状態を予測することで意思決定の根拠を提供します。世界モデルは通常、すべての可能性を列挙する代わりに、確率分布と遷移確率（transition probabilities）に基づいて将来発生得る様々な状況を予測します。この方法により、不確実性が存在する場合でも合理的な予測を行うことができます。

物理法則とシミュレーター

世界モデルは、人間による物理法則への入力を完全に依存しない形で世界を理解しようとするものです。従来のシミュレーター（simulators）は人間が明示的にコード化した物理法則に依存していますが、世界モデルはデータ内のパターンを学習することでこれらの法則を「理解」します。例えば、自動運転やロボティクス分野では、ビデオ予測モデルが行動の法則を学習し、単に人間が入力した規則をコピーするだけではありません。

物理学の歴史とAIの応用

物理学の発展過程——ニュートン力学から相対論、そして量子力学へ——は、人類が法則に対する理解を深めてきたことを示しています。同様に、AI分野においても、モデルの規模が拡大し、データが増え続けることで、より複雑で詳細な法則を学習できるようになります。これは言語生成、例えば法律文書の作成に限りません。ビデオコンテンツの生成、例えばカーレースにおけるコーナーでの物理的な挙動などにも拡張されています。

モデル学習の本質

世界モデルやその他のAIモデルの目標は、データを単に記憶するだけでなく、データを生成する規則を学ぶことです。これは、モデルの重みが世界の規則に対する理解を反映していることを意味します。この理解により、AIは言語生成やビデオコンテンツ作成などの特定分野で、複雑な現象に対する深い洞察力を示すことができます。

規則理解の精度

モデルの規模が拡大し、触れるデータが増えれば増えるほど、モデルはより複雑で専門的な規則を理解できるようになります。この深化した理解は、言語に関する専門知識にとどまらず、物理的世界のより正確なシミュレーションにも広がります。例えば、モデルは特定の条件下での物体の行動に関する具体的な規則、例えばレーシングカーが特定条件における挙動を学習することができます。

ソラとモデルの応用

Soraなどの最先端のAIモデルは、大規模なデータトレーニングを通じて、AIが複雑な世界のルールを複数のレベルで模倣し理解できる可能性を示しています。これらのモデルは既存のAI技術、例えば自己回帰モデルやDiffusionモデルを統合的に活用することで、現実世界に対する深い理解を反映した高品質な言語および視覚コンテンツを生成することができます。

Soraのモデルサイズはどれくらいと予測されていますか？さらに拡大する必要があるのでしょうか？

VideoPoet：8B（80億）パラメータを実現しており、これは比較的大きなモデルで、高品質なビデオコンテンツを生成可能です。
Diffusion Transformerの DiT-XL：約1M（100万）パラメータを持ち、この数値は比較的小さいですが、小型モデルでも効果的な学習と生成タスクが可能であることを示しています。
Sora：約10B（100億）パラメータ程度と推定されていますが、3B（30億）という予測もあります。これにより、モデル設計やトレーニングに投入される計算リソースについて異なる戦略が存在することが示唆されます。

モデルが小さくなり、データが増える：これは潜在的なトレンドであり、モデルのサイズを維持または減少させながら、データ規模を拡大することでモデルの性能を向上させる方法です。このアプローチは推論コストを削減し、AIアプリケーションをより経済的かつ効率的にします。

推論コストの考慮：小さなモデルは推論時に安価であり、特に頻繁にまたはリアルタイムで推論が必要なアプリケーションにおいて重要です。これにより、研究者や開発者は限られたリソース下での最適なパフォーマンスを実現するために、より効率的なモデル構造と学習方法を探求しています。

ビデオコンテンツ生成の事例は、ビデオデータ量が多い場合でも、巧妙に設計されたモデル構造と学習戦略によって、比較的小さなモデルでも満足のいく生成品質を達成できることを示しています。

計算力への投資：モデルの学習および推論コストは利用可能な計算資源と密接に関連しています。計算力が限られている場合、より小さいかつ効率的なモデルを開発することが重要な目標となります。

モデルを引き続き拡大する必要があるか：

モデルの規模が増加すると、通常、包括的な理解能力の向上、より正確な予測、および複雑なタスクへの対応能力といった性能の向上が観察されます。現在のモデルが特定のタスクで理想的なパフォーマンスを発揮していない場合、モデルの規模を拡大することが一つの解決策となる可能性があります。

アプリケーションの要件に、テキスト、画像、ビデオなどさまざまな種類のデータを処理および生成することが含まれる場合、より大きなモデルが必要になる可能性があります。これは、大規模なモデルが多様な情報を格納し、処理することができ、マルチモーダルデータをよりよく理解し統合できるためです。

Soraのトレーニングに必要な計算リソースの見積もりはどのようになりますか？

トレーニングコストの見積もり

Llama 70Bモデル：NVIDIA A100 GPU 2000枚を使用して1ヶ月間トレーニングしました。これは、大規模言語モデルのトレーニングには膨大な計算能力和それに伴う時間が必要であることを示しています。
VideoPoet：NVIDIA H100 GPUを数百枚使用して2週間訓練しました。VideoPoetのモデルサイズはLlamaほど大きくないかもしれませんが、ビデオデータを処理する複雑さにより、かなりの計算リソースが必要になる可能性があります。
Sora：NVIDIA H100 GPUを数千枚使用して1ヶ月訓練する必要があるかもしれません。Soraモデルの規模と高解像度ビデオデータを処理する複雑さを考えると、その計算力の要求はさらに高くなるでしょう。

モデルとデータの特性

モデル規模とシーケンス長：Soraのモデル規模がそれほど大きくなくても、ビデオデータを処理する際に必要なシーケンス長はテキストデータよりも遥かに長く、ビデオデータの情報密度は通常言語より低いため、これにより訓練の難易度と計算リソースの要求が増加します。
GPUの最適化とアーキテクチャ：現在のGPUインフラストラクチャはTransformerモデルに対して十分に最適化されていますが、潜在表現（latent representation）からピクセルレベルのデータに戻す際には、エンコーダーとデコーダー、そして結論に基づくアーキテクチャ（conclusion-based architecture）が関与し、さらなるハードウェアサポートと最適化が必要となる場合があります。
ビデオ前処理：ビデオデータは、トレーニングや推論時の負担を減らすために前処理を行うことができますが、これは慎重に設計されたデータ処理プロセスを必要とします。

Soraの推論コストの見積もりはどうなっていますか？

推論コスト：Soraのようなモデルでは、ノイズ除去（denoising）プロセスの各ステップが自己回帰（AR）モデル全体に相当する計算リソースを必要とする可能性があり、これにより1つのビデオを生成するのに最大20分かかることがあります。これは、ビデオ生成モデルが推論時に高いコストを伴うことを示しています。
計算力とメモリ制約：ARモデルの時間消費は主にメモリの読み取りに起因しますが、Diffusionモデルは計算集約型です。これは、そのコストが高いものの、ARモデルと比較すると性能面でより最適化されている可能性があることを意味します。

推論速度を向上させる方法は？

ハードウェアと演算能力の向上

ハードウェアの進化：GPUやその他の専用ハードウェア（TPUなど）の性能向上に伴い、より速いデータ処理と計算速度が期待できます。Transformerモデルは計算集約型タスクであり、特にメモリ帯域幅（memory bounds）において高い要求がありますが、ハードウェアの改善により推論速度が直接向上します。
演算能力の向上：強化された演算能力は、より速い計算速度を意味するだけでなく、大量のデータをより効率的に処理できるようになり、特にビデオのようなデータ集約型タスクに対して有利です。

エンジニアリングの最適化

より良いバッチ処理（Batching）：データのバッチ処理戦略を最適化することで、より多くのデータを同時に処理し、I/O待ち時間を削減し、GPUの利用率を向上させることができます。
LLM（大規模言語モデル）の最適化：大規模モデルに対するエンジニアリングの最適化、例えばモデルのプルーニングや量子化などは、モデルの計算需要を減らし、推論速度を向上させることができます。

アルゴリズムの改善

Diffusionモデルの最適化：Diffusionモデルにはまだ大きな改良の余地があります。例えば、デコードステップ（decoding steps）の数を減らす、またはより効率的なサンプリング戦略を開発することで生成速度を向上させることができます。
アルゴリズムの効率：新しいアルゴリズムの発見や既存のアルゴリズムの改善も、推論速度を大幅に向上させる可能性があります。例えば、改良されたアテンションメカニズムや、より効率的なデータの符号化・復号化技術などです。将来の推論速度について、これらの分野での継続的な改善により、10秒のビデオコンテンツを生成する際の推論時間が1分以内に大幅に短縮されることが期待されます。

スケーリング則はエンコーダーとデコーダーの圧縮率に適用できますか？

圧縮率とモデル規模：理論的には、エンコーダーとデコーダーの規模を1Bパラメータから100Bパラメータに拡張することで、より高い圧縮率が得られ、シーケンス長を1Mから1Kに短縮できると期待されます。これは、より大きなモデルが強力な学習能力和表現能力を持ち、データ内の複雑さや詳細をより効果的に捉えたり符号化したりできるためです。
モデル規模と中間モデルの必要性：エンコーダーとデコーダーの規模が一定レベルまで増加すると、理論上はトランスフォーマーなどの中間モデルへの依存を減らすことができます。これは、強力なエンコーダーとデコーダーが直接高品質なデータ表現を処理および生成できるため、中間処理ステップの必要性が減少するためです。実際の応用ではトレードオフがあります。
効率とボトルネック：スケーリングの過程で、中間モデルが高効率を持つことを望む一方で、エンコーダーとデコーダーをできるだけ小さくしてボトルネックを回避したいという相反する要望があります。実際には、各コンポーネント間のバランスを見つけることが最適化モデルの目標であり、全体的な効率と高性能を実現します。
視覚モデルの特殊ケース：視覚モデルにおいて、デコーダーが非常に強力であれば、理論的には追加の処理層が必要なくなる可能性があります。理想的な状況では、強力なデコーダーがあれば、符号化された表現から高品質な画像やビデオコンテンツを復元することができます。ただし、これにはデコーダーが極めて強力な生成能力を持つ必要があります。圧縮比と情報密度に関連します。
情報密度の制御：ビデオや言語データを処理する際の目標は、符号化後の情報密度があまり差が出ないようにすることです。これは、エンコーダーを設計する際に圧縮力を制御し、データの重要な情報を効果的に保持することを意味します。
圧縮率の選択：適切な固定圧縮率を選択するには、入力解像度と潜在的なエンコーダの能力とのバランスを考慮する必要があります。さらに、データ内の異なる部分の重要性が異なることを考慮し、注意リソースを動的に配分することもモデルの性能を最適化するための一つの方向です。

モデルがマルチモーダルをサポートする場合、生成品質に影響を与えますか？

固定的なリソース予算内で、もし100%のリソースを一種類のモーダル（例えばテキスト）に使用すれば、そのモーダルでのモデルのパフォーマンスは最適になる可能性があります。しかし、他のモーダル学習のために一部のリソースを割り当てる場合、単一モーダルのパフォーマンスは低下するかもしれません。なぜなら、モデルは複数のタスク間で注意と学習能力を分散させる必要があるからです。

理想的には、もしリソースを増やして、マルチモーダルデータを学習している際にも各モーダルが十分な学習リソースを得られれば、モデルの各モーダルにおけるパフォーマンスが大きく影響を受けないばかりか、モーダル間の相互補完と学習によって全体的なパフォーマンスが向上する可能性もあります。

短期的には、ChatGPTやSoraのようなモデルの統合がすぐに起こることはないでしょう。主な理由は、異なるモーダル間の学習要件とリソース配分戦略を慎重に設計し調整する必要があるためです。さらに、マルチモーダル学習では、モデルが異なる種類のデータ間の複雑な関係を処理し理解できる必要があり、それ自体が大きな挑戦です。

新しいゲームやユーザーのプライベートゲームなど、ビデオモデルのトレーニングに含まれていないデータを処理する場合、マルチモーダルモデルは言語モデルにおけるRAG（Retrieval-Augmented Generation）機能に類似した機能を導入できるでしょうか？

柔軟性とノイズ除去：Diffusionモデルは高品質な画像やビデオの生成において顕著な利点を持ち、特にそのノイズ除去プロセスにより現実に近い視覚コンテンツを生成できます。ARモデルとの組み合わせにより、系列データに対する制御が増し、生成されるテキストや言語コンテンツがより正確で一貫性を持つようになります。
長序列処理：Transformerモデルの長序列処理能力により、複雑なマルチモーダルコンテンツ、包括的なゲーム説明や長尺ビデオなどを理解し生成することが可能です。
例主導型学習：新規ゲームや特定のコンテンツに関連する例をモデルに提供することで、これらの分野のデータをよりよく理解し生成するのに役立ちます。これらの例はRAGメカニズムを通じて必要時に検索され、生成プロセスを支援します。

現在のモデルの拡張は、diffusionモデルの中での最適化か、それともtransformerフレームワーク上の最適化ですか？

Transformerモデルの最適化はエンジニアリングの最適化です：Transformerモデルの最適化は、長序列データを処理し推論時間を短縮するために、計算効率の向上とモデルサイズの縮小に焦点を当てています。Diffusionモデルの最適化は理論的導出です：Diffusionモデルの最適化は、生成データの品質と効率を向上させるためのアルゴリズムの改善に主に焦点を当てています。

Soraの登場は、Pikaのようなスタートアップ企業にとってどのような挑戦となるのでしょうか？

Pikaは以前から主にU-net構造に基づくLatent Diffusionモデルを使用しており、Soraの現行モデルとは一定の差異が存在します。

以前のトレーニングデータは引き続き利用できますが、計算力に対する需要は大幅に増加しており、これによりさらなるインフラストラクチャやコスト面での圧力が生じています。

Soraには、モデルの大きさや高い計算力要件による暴力美学以外にも、他の重要な要素が存在しますか？

モデルの規模と高い計算力の要求に加え、Soraの成功はいくつかの重要な要因に依存しています。主にデータの選別、整理、およびモデルの技術的詳細が含まれます。物理法則に従い、特殊効果編集が少ない高品質なデータを選択することは、モデルのトレーニングにとって非常に重要です。

VideoPoet の経験から見て、トレーニングデータに関してどのような教訓がありますか？

YouTube上のデータは多種多様ですが、それらを直接利用することが最良の選択肢ではありません。なぜなら、無味乾燥な伝統的なゲーム配信や繰り返しのある音楽ビデオなど、大量の低品質コンテンツが含まれているためです。そのため、高品質なデータを選別することが特に重要になります。

データエンジニアリング分野において、人工知能の組み合わせは極めて重要な役割を果たします。最高品質のデータは通常、高水平な人間の創作から得られます。例えば、大規模言語モデルのトレーニングでは、教科書が非常に優れたデータ源となります。教科書には必要なすべての情報がまとめられており、執筆者はその分野の専門家で、多くの努力を注ぎ込み、内容が豊富で図や画像が付いており、説明も詳しいものです。このようなデータは、博士号を持つ専門家によって作成されることが多いです。

高品質なビデオデータのソースについては、主に購入した素材ライブラリが挙げられます。これは、許諾済みのストックビデオ、ニュースやメディアの素材ライブラリで、通常はタグが付いています。映画やテレビ作品もデータソースとして使用できますが、著作権問題が発生する可能性があります。

全体的に見て、データ作成者の教育レベルが高いほど、データの質は通常向上しますが、それと同時に著作権保護措置もより厳格になります。

Videopoetは合成データを使用していますか？

Videopoetは合成データを使用していません。ただし、ゲームエンジンによって生成されたデータを合成データに含める場合、Soraはそのようなデータを使用している可能性があります。Videopoetは主にモデルの革新に焦点を当てているため、データの選択は具体的な要件によります。データを生成することは膨大な作業であり、一般的に既存のAAAタイトルのゲーム作品に依存して、ユニークなデータセットを取得します。これらのデータの利点は、物理法則に基づいていることです。

もし生成モデルの目的が世界のルールを学ぶことであるならば、ビデオでは完全にカバーされていないいくつかのルールが存在する可能性があります。ゲームエンジンはすでに物理ルールが非常に正確に記述されています。これらのルールを現実世界から学んだルールと組み合わせることで、モデルのパフォーマンスを向上させることができます。

LLM（大規模言語モデル）にコーディングを組み合わせることで、その推論能力が向上します。物理ルールを加えることで、ビデオ生成モデルに役立つのでしょうか？

賛成意見：

自然言語の論理はあいまいで、多くのグレーゾーンが存在します。一方で、プログラミング言語は厳密な形式言語であり、論理規則を厳密に従いますので、あいまいさがありません。したがって、プログラミング言語は自然言語における論理推論の不足を補うことができます。

例えば、カップが割れる場合、物理エンジンはそれを破砕としてシミュレーションします。しかし現実では、強化ガラスであれば状況はまったく異なるものになる可能性があります。ゲームエンジンによって生成されるデータはこのような複雑な状況を処理することができます。

反対意見：

ゲームエンジンの使用は、世界を観察することによって物理法則を形成するという当初の構想から逸脱しています。現在、人類は既に物理法則をまとめ、それらを機械に与えています。しかし、もしモデルが自発的に新しい法則を見つけることができるとしたら、既存の物理法則に依存することは制約となるでしょう。

自然生成の動画は、人間による特殊効果加工がなされている可能性があるものの、物理法則に従っています。物理的に妥当な条件を満たす解決策を提供することで、予測がより効果的に行えるようになります。

Videopoetは、テキストと画像のペアデータだけでなく、大量の動画や画像データも訓練に使用されます。画像から動画へのトレーニングは、特にラベル付きの動画において、テキストから動画へのトレーニングに役立ちます。したがって、画像から動画へのトレーニングは、テキストから動画へのトレーニングの効果を向上させるために有益です。

Soraが登場した後、人々の考え方はどのように変わりましたか？

Soraの登場により、人々はLLM（大規模言語モデル）がスケーラブルであり、ディフュージョントランスフォーマーもスケーラブルであることに気付きました。この構造自体がスケーリング可能であり、異なる学習曲線を持ちながらも拡張可能です。未来には、MoE（エキスパートの混合モデル）に注力する人が増えるかもしれません。

Soraに関する一般的な誤解、過小評価、過大評価について

過小評価：

マルチレゾリューション設計に対する過小評価。このデザインアプローチは比較的人気がある。固定レゾリューションを採用すると、データに悪影響を与える可能性がある。生成モデルへの応用では、将来大きな影響を及ぼす可能性がある。データのより効率的な活用が可能となる。生成と訓練の効率は3倍向上する可能性がある。

過大評価：

世界モデルに対する過大評価。内部的世界モデルが存在する可能性はあるが、それを視覚理解タスクに利用するのは難しいかもしれない。視覚分野におけるGPTに関する議論はあるものの、まだ視覚分野のGPTレベルには達していないと考えられる。
出力されるビデオ品質に対する過大評価。多様性や成功率も含む。同じプロンプトを使用しても、多くの異なるビデオが生成され、それぞれが優れていることを保証できるモデルこそが良いモデルである。

ソラをコピーするにはどのくらいの時間がかかりますか？

ソラをコピーするには、インフラストラクチャ、計算リソース、データが重要です。モデル自体は比較的重要ではなく、大まかな推測が可能です。例えば、GoogleやMetaのような大企業であれば半年以内にソラをコピーできるかもしれませんが、小規模な企業だとそれ以上かかる可能性があり、1年ほど必要かもしれません。

ジェミニはすでにGPT-4を超えており、そのオープンソース版はGPT-3.5さえ上回っています。（ゲストの意見で、一部の人々は同意しないかもしれません）

豊富なGPUリソースと人材を持つ企業は、類似のモデルに対応するのは時間の問題であり、ある程度容易です。

GPUリソースが限られている場合、限られた計算リソースでソラをコピーするのは非常に困難であり、より人的資源への依存が高まります。

小型モデルのパフォーマンス向上は明らかである。

画像生成において、多くの小規模企業がMidjourneyやStable Diffusionなどのオープンソースプロジェクトのように大量のデータを蓄積している。OpenAIはDALL-E 3の開発に全力を尽くしておらず、同時にSoraの開発も進めている。大手企業はその流れに追いつく可能性があるが、小規模企業にとってそのコストは見合わないかもしれない。

2023年、Diffusion Transformerに関する論文は学術誌によって拒否されたが、業界では大きな成功を収めた。

Diffusion Transformerは、基準テストと拡張性に重点を置いた概念であり、革新的な解決策よりも重要視されている。当初、学術誌から「革新性に欠ける」という理由で拒否されたが、産業界では著しい進展を遂げた。このアプローチはデータのフィルタリングと整理に焦点を当てており、人間の知能への依存は相対的に少ない。

Diffusion Transformerの論文は最初にCVPR 2023で「革新性に欠ける」という理由で拒否されたが、その後ICCV 2003で受け入れられた。この初期の拒否は、学界が実際の有効性よりも新規性を重視していることを示している。学術的には挫折があったものの、Diffusion Transformerは産業界で大きな成功を収めた。そのシンプルさと拡張性が評価され、これは特に大規模データセットの処理において重要である。産業界でのこのモデルの採用は、実用性と性能が理論的革新以上に重要であるというトレンドを強調している。

研究者が退屈になる可能性があるのは、設計されたモデルよりも賢い人間がデータをラベル付けするほうが効果的だからです。

今年、何が起こることを最も楽しみにしていますか？

人々が最も期待しているのは、計算能力が桁違いに向上し、かつ製造コストと使用コストが低下した新しいハードウェアの登場です。

Videopoetで使用されているTPUは良好なスケーラビリティと高い効率を持っていますが、柔軟性には欠けています。TensorFlowとJAXのみを使用でき、静的グラフしかサポートしていません。

TPUの計算能力の規模は同時期のGPUと同等ですが、コストが低く、計算能力こそ大幅に向上していません。

ディフュージョン・トランスフォーマーとオートレグレッシブ・トランスフォーマーの融合も期待されています。

符博士は、人々が一つのモデルで全てのタスクをこなすことを期待していると考えています。モデルの規模が拡大するにつれ、ルール理解の粒度も増加し、それは世界モデルやビデオモデルにも当てはまります。例えば、PaLM内のビジョンモデルの規模は22Bです。ビデオモデルは少なくとも言語モデルと同じ規模、またはそれ以上であるべきです。そのうち1Tが言語処理に、さらに1-2Tが他のモーダリティの処理に使われます。

人々は生成されるコンテンツが長時間にわたり、鮮明で、物理法則に従い、驚きの能力（エマージェンス能力）を持ち、かつマルチモーダルの交差を持つことを望んでいます。例えば、モデルはサラリーマン向けに講義を行い、優先的に一枚の画像やGIFを使用します。このようなマルチモーダルの教育方法は、教育の革命をもたらします。

于博士は、chatGPTとSoraの融合に関して、今年科学研究があるかもしれませんが、実際の製品への推進は行われないだろうと考えています。

多くの学術用語が私にとって馴染みがないため、ノートを取る過程で多くの誤りがあるかもしれません。情報の正確性を確保するために、オリジナルのポッドキャストをお聞きになることをお勧めします。