Google DeepMind の GO - 動画からの背景抜き、超簡単！

Google DeepMind の GO（Generative Omnimatte）アルゴリズムは、ビデオを複数のレイヤーに分解するという点で画期的な進展を遂げました。この方法は、ビデオを個々のオブジェクトとその関連する効果（影や反射など）を含む、意味的に意味のあるレイヤーに分解することを目指しています。

具体的には、omnimatte メソッドは、入力されたビデオと目標オブジェクトのマスクを使用して、上述の分解を実現します。しかし、既存の omnimatte メソッドは通常、背景が静止していることを前提にしていたり、カメラの姿勢や深度の正確な推定に依存しています。これらの仮定が成り立たない場合、分解結果は悪化します。さらに、自然なビデオの生成的先験情報が不足しているため、動的な遮蔽領域を効果的に補完できません。

これらの問題を解決するために、著者は新しい生成型の階層ビデオ分解フレームワークを提案しました。これは主に omnimatte 問題に焦点を当てています。この方法では、シーンが静止していることを前提とせず、カメラの姿勢や深度情報に依存しません。クリーンで完全な階層ビデオを生成でき、動的な遮蔽領域も信頼性の高い補完が可能です。その中心的なアイデアは、特定のオブジェクトによって引き起こされるシーン効果を識別し、除去するためのビデオ拡散モデルを訓練することです。研究によると、このモデルは既存のビデオ修復モデルを微調整することで実現可能であり、小型で慎重に設計されたデータセットを使用することで、高品質な分解と編集効果を得ることができます。

実験結果は、この手法が柔らかな影、滑らかな反射、飛沫などの多様な日常的なビデオシーンに適用可能であることを示しており、優れた分解および編集能力を持っていることがわかります。

方法：メソッド

入力ビデオとその対応する2値化されたオブジェクトマスクに対して、方法は2つの段階に分かれています：

これにより、クリーンプレート背景（clean-plate background）と一連の単一オブジェクト（solo）ビデオが生成されます。これらの単一オブジェクトビデオは、異なるトリマスク（trimask）条件から生成され、トリマスクは3つの領域を定義します：

：完全に保持する必要がある部分。
：除去する必要がある部分。
：さらに処理が必要な領域。

第2段階では、Googleがテスト時の最適化を通じて単一オブジェクトのビデオと背景ビデオを組み合わせ、最終的なomnimatteレイヤーを再構築します。

この二段階の方法は、効果的にビデオ内のオブジェクトとその関連するエフェクトを分離し、意味的に明確な階層的なビデオを生成します。

オブジェクトとエフェクトの除去：三重マスク条件に基づく

入力ビデオからオブジェクトとそのエフェクトを分離するために、Googleは異なる三重マスク条件を使用して一連の単一オブジェクト（solo）ビデオとクリーンな背景ビデオ（下段）を生成します。具体的には、三重マスクは以下の領域を定義します：

：完全保存されるビデオコンテンツ。
：削除が必要なオブジェクトおよびその効果。
：さらに処理が必要な不確定な領域。

モデルを使用する際、Googleはランダムシードの選択最適化を行っていません。すべての異なる入力ビデオに対して、同じランダムシード（0に設定）が使用され、方法の汎用性と安定性を確保しています。

対比分析：オブジェクトと効果の除去
を用いてCasperモデルは既存のオブジェクト除去手法と比較されます。結果は次の通りです：

）は、入力マスク範囲外のソフトな影や反射を効果的に除去できない。
これは画像に基づく方法であり、ビデオをフレームごとに処理するため、グローバルなコンテキストを利用できず、時間的な一貫性に欠けています。
公平性を確保するために、すべての手法は同じマスク膨張率を使用して比較されます。

比較分析：Omnimattes

）との比較を行います。現行の方法には以下の問題があります：

これらの手法は厳しい運動の仮定（例えば静止した背景）に依存しており、これにより動的な背景要素が前景オブジェクト層と絡み合ってしまいます。
の3Dパーセプションベースの表現は、カメラ姿勢推定の品質に敏感であり、ぼやけた背景レイヤー（例えば馬のシーンなど）を生成する可能性があります。
既存の手法には、遮蔽されたピクセルを補完するための生成モデルおよびセマンティックな事前情報が欠けており、効果を対応するオブジェクトと正確に関連付けることができません。

そしてGoogleが提案した手法は、オブジェクト効果の除去やomnimatteの生成において、既存の手法よりも著しく優れていることです。

試用

現時点ではオープンソースのコードは公開されていませんが、まずは論文をご覧ください：https://arxiv.org/pdf/2411.16683。

Google DeepMind の GO - 動画からの背景抜き、超簡単！

方法：メソッド

オブジェクトとエフェクトの除去：三重マスク条件に基づく

対比分析：オブジェクトと効果の除去を用いてCasperモデルは既存のオブジェクト除去手法と比較されます。結果は次の通りです：

比較分析：Omnimattes

対比分析：オブジェクトと効果の除去
を用いてCasperモデルは既存のオブジェクト除去手法と比較されます。結果は次の通りです：