と似ています。V2Aは、ビデオピクセルと自然言語テキストプロンプトを組み合わせて、画面内の動きに対応する豊かなサウンドスケープを生成します。V2A技術は、Veoなどのビデオ生成モデルとペアリングされ、劇的な音楽、現実的な効果音、またはビデオキャラクターやトーンに一致した対話シーンを作り出すことができます。また、アーカイブ資料やサイレント映画など、さまざまな従来の素材にも音声トラックを生成し、より広範な創作機会を開きます。
Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete
強化されたクリエイティブコントロール
重要な点は、V2Aが任意のビデオ入力に対して無限の数の音声トラックを生成できるということです。ユーザーは「ポジティブプロンプト」を選んで希望する音を生成するか、「ネガティブプロンプト」を選んで望まない音を避けることができます。この柔軟性により、ユーザーはV2Aの音声出力に対するより多くのコントロールを得ることができ、異なる音声出力を迅速に試し、最適なものを選択できます。
Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi
Prompt for audio: Ethereal cello atmosphere
Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi
仕組み
自己回帰法と拡散法に関する実験を行い、最もスケーラブルなAIアーキテクチャを探しました。その結果、拡散法に基づくものは、ビデオと音声情報を同期させながら、最もリアルで魅力的な音声生成を提供することがわかりました。V2Aシステムはまず、ビデオ入力を圧縮表現にエンコードし、次に拡散モデルがランダムノイズから反復的に音声を洗練させます。このプロセスは視覚的入力と自然言語プロンプトによって導かれ、プロンプトと緊密に一致する同期されたリアルな音声を生成します。最終的には、音声出力がデコードされ、音波形に変換されてビデオデータと結合されます。
V2Aシステムは、ビデオピクセルと音声プロンプト入力からビデオと同期した音波形を生成します。まず、V2Aはビデオと音声プロンプト入力をエンコードし、拡散モデルを通じて反復処理を行います。その後、圧縮された音声が生成され、音波形にデコードされます。より高品質な音声を生成し、特定の音をモデルが生成する能力を増強するために、訓練中に詳細な音声説明や対話記録付きのAI生成注釈を含む追加情報を加えました。ビデオ、音声、および追加注釈の訓練を通じて、当社の技術は特定の音声イベントをさまざまな視覚シーンに関連付け、同時に注釈や対話記録で提供される情報に応答できるようになりました。
依然として存在する課題
音声出力の品質はビデオ入力の品質に依存しているため、モデルの訓練分布外の部分であるビデオ内のアーチファクトや歪みが音声品質に大幅な悪影響を与えることがあります。また、話し手のビデオにおけるリップシンクの改善も進行中です。V2Aは、入力された対話記録に基づいて音声を生成し、それをキャラクターの唇の動きと同期させようとするが、ペアリングされているビデオ生成モデルが対話記録に基づいて調整されていない場合、不一致が生じることがあります。これにより、ビデオモデルが生成する口の動きが対話記録と一致せず、不快感を引き起こすリップシンク問題が発生することがあります。
Prompt for audio: Music, Transcript: “this turkey looks amazing, I’m so hungry”