Google のビデオ生成モデル VOE2 の試用

Googleは昨年末にビデオ生成モデルを発表しました。VOE2リアルな動きと詳細なビジュアルを備えたビデオコンテンツを作成でき、最大4K解像度に対応しています。ユーザーは豊富なレンズコントロールオプションを通じて多様なビジュアルスタイルを探索し、簡単にパーソナライズされた作品を作ることができます。

私はこれまでずっと待ちリストにいたのですが、今日はVOE2モデルがFalプラットフォームで公開されていることを知り、試してみました:

🔗 https://fal.ai/models/fal-ai/veo2/playground

しかし価格は少し高めです:

  • 5秒のビデオ生成には支払いが必要です$2.50
  • それ以上の部分については、1秒増えるごとに追加料金がかかります$0.50

ビデオの長さや内容を事前に計画することで、この強力なビデオ生成技術を効率的かつ経済的に体験することをお勧めします。

テキストからビデオへの変換も試してみました

A professional gymnast in a brightly lit, modern indoor gymnastics arena performing an elegant and dynamic floor routine. The gymnast gracefully executes a sequence of flips, leaps, and spins, demonstrating precise body control, flexibility, and strength. Capture fluid motion and realistic details such as the gymnast's muscular definition, attire (a sleek gymnastics leotard), expressive posture, and confident facial expression. Use cinematic camera angles and smooth transitions to showcase the athletic artistry clearly, maintaining a polished, high-quality visual aesthetic.

画像からビデオへの変換も試してみました

A close-up video of a man enthusiastically eating a freshly cooked fish meal in a casual dining environment. The man shows vivid facial expressions, chewing energetically and clearly enjoying the taste, occasionally nodding in approval. Realistic details include mouth movements, expressive eyes, and subtle gestures of delight. Maintain cinematic lighting with natural colors, emphasizing a lively and immersive atmosphere.

品質と制御の新しい標準

VOE2は強力な理解力と実行能力を持ち、シンプルまたは複雑な指示を正確に実現し、現実物理効果をリアルに再現し、豊かな視覚スタイルを提供します。

  • 超高精細度と詳細表現
    他のAIビデオモデルと比較して、VOE2はディテール描写、リアリズム向上、および画面のアーチファクト低減において顕著な優位性を示しています。

  • 先進的なモーションシミュレーション能力
    物理規則に対する理解に基づき、VOE2はさまざまな動作の詳細を正確に再現し、ビデオ指示を正確に実行できます。

  • より多様なレンズコントロール
    ユーザーは精密な指示を通じて、様々なレンズスタイル、角度、そしてアクションの組み合わせを自由に実現できます。

性能評価

複数のトップクラスのビデオ生成モデルに対する直接比較テストにおいて、人間の評価者による評価でVOE2は目立った成果を上げました。Metaによって公開されたMovieGenBenchベンチマークデータセットでは、参加者は合計1003個のビデオ生成プロンプトとその結果のビデオを評価しました。VOE2は総合的な好みと指示の正確な実行能力の両方でトップとなりました。

すべてのビデオテストは720p解像度に基づいています。比較において、VOE2のビデオは8秒、VideoGenは10秒、他のモデルは5秒であり、すべてのビデオは評価者に提出されました。