これは昨日公開された新しいモデルで、FoleyCrafterと名付けられました。これはテキストベースのビデオから音声を生成するフレームワークであり、入力されたビデオと意味的に関連があり、時間的に同期した高品質な音声を生成できます。このモデルは、上海人工知能研究所と香港中文大学(深圳)のチームが共同で開発しました。
効果ビデオ(ビデオ中の音声はFoleyCrafterによって生成されました)
研究方法
FoleyCrafterは、事前に学習されたテキストから音声(T2A)ジェネレーターの上に構築されており、高品質な音声合成を確保します。これには2つの主要コンポーネントが含まれます:セマンティックアダプター(S.A.)とタイムコントローラーで、後者はタイムスタンプ検出器(T.D.)とタイムアダプター(T.A.)で構成されています。セマンティックアダプターとタイムコントローラーは訓練可能なモジュールで、ビデオを入力して音声を合成し、音声監督のもとで最適化されます。T2Aモデルは固定され、その確立された高品質な音声合成能力を維持します。
同種の比較
FoleyCrafterの顕著な利点の一つは、テキストプロンプトとの互換性であり、これによりユーザーはテキスト記述を使用して制御可能で多様なビデオから音声への生成を実現できます。私たちは、FoleyCrafterの有効性を検証するために、標準的なベンチマーク上で広範な定量的および定性的な実験を行いました。
意味的アラインメントと音質:
時間同期:
例のデモ
HuggingFace上でこのモデルを実行できることを確認しました。自分で試してみましたが、なかなか良い結果が得られました。
私は自分で「ランニングカート」の動画を作成しました: