ミミックブラッシュ:ゼロショットの画像編集とリファレンス模倣

阿里が先月リリースしたプロジェクト、MimicBrushを見てみましょう。このプロジェクトでは、MimicBrushによって生成された多様な編集結果が示されています。ユーザーは、元の画像で編集対象の領域(つまり白いマスク)を指定し、野外環境での参考画像を提供するだけで、編集後の期待される効果を説明できます。MimicBrushモデルは、これら二つ間の意味的な対応関係を自動的に捉え、一度の実行で編集を完了します。

3つの使用シーン

1. 局所領域編集

2. テクスチャ転送

3. 後期処理の最適化

実行

HuggingFace でデモを試すことができます。このお兄さんに緑の帽子をかぶせました:

特徴

画像編集は、実用的かつ挑戦的なタスクであり、ユーザーの多様なニーズを考えると、その中でも最も難しい部分の一つは、編集後の画像がどのようなものであるべきかを正確に説明することです。本研究では、MimicBrushは新しい編集形式、いわゆる模倣編集を提案し、ユーザーが創造力をより簡単に発揮できるように支援します。具体的には、興味のある画像領域を編集するために、ユーザーは参照画像と元画像の間の適合問題を処理する必要なく、直接いくつかの野外参照からインスピレーションを得ることができます(例えば、オンラインで見つけた関連画像など)。この設計では、システムが自動的に参照画像の期待される効果を理解して編集を実行することが求められます。MimicBrushフレームワークは、ビデオクリップから2フレームをランダムに選択し、そのうち1フレームの一部領域をマスクし、もう一方のフレームの情報を用いてマスクされた領域を復元します。これにより、MimicBrushモデルは自己監督の方法で異なる画像間の意味的な対応関係を捉えることができます。

技術

MimicBrushの学習プロセスは以下の通りです:

まず、ビデオシーケンスから2フレームをランダムに抽出し、それぞれを参照画像と元画像として使用します。次に、元画像に対してマスク処理を行い、データ拡張を施します。その後、ノイズ付きの画像潜在変数、マスク、背景潜在変数、深度潜在変数を模倣U-Netに入力します。また、参照画像も増強され、参照U-Netに送信されます。これらの2つのU-Netネットワークは、元画像のマスクされた領域を復元するために訓練されます。参照U-Netのアテンションキーと値は、模倣U-Netに連結され、マスクされた領域の合成を補助します。

比較