昨日、Googleの研究を紹介しましたが、本日はもう一つの研究をご紹介します。この研究に関しては現在論文のみが公開されており、オープンソースコードはまだありません。研究の名前は「Magic Insert: Style-Aware Drag-and-Drop」です。
Magic Insertを使用すると、一枚の画像から主体を切り取り、全く異なるスタイルを持つ別のターゲット画像にドラッグアンドドロップで配置し、スタイルに応じたリアルな挿入効果を実現できます。
効果
スタイル感知挿入の有効性と多様性について説明します。これらの例では、写実的なシーンからアニメーションや絵画まで、さまざまな芸術スタイルを持つ主体とターゲット背景がカバーされています。
大規模言語モデル(LLM)による姿勢調整
例では、LLMによって導かれたMagic Insertの姿勢変更が示されています。LLMは画像領域に対して合理的な姿勢や環境とのインタラクションを提案し、Magic Insertはそれに応じたスタイル化された主体を画像に生成して挿入します。
ブートストラップ領域適応結果
ブートストラップ領域適応を行わない場合、事前学習された主体挿入モジュールを使用すると劣る結果となり、影や反射がない、または歪みやアーティファクトが追加されるなどの故障モードが発生します。
属性変更付きスタイル認識型パーソナライゼーション
主体の主要な属性(例えば図に示されているような属性)を変更しながら、生成プロセス全体を通して常に目標とするスタイルを適用することができます。これによりキャラクターの再設計やアクセサリーの追加が可能になり、クリエイティブな用途の柔軟性が大幅に向上します。ControlNetを使用する場合はこの機能が失われることに注意が必要です。
編集可能性/忠実度のトレードオフ
異なるファインチューニング反復によるスペースネイビーキャラクター(図に示す通り)の生成結果を示し、編集可能性/忠実度のトレードオフ現象を説明しています。「緑色の船」スタイルを採用し、「地面に座る」というテキストプロンプトを追加しました。スタイル認識パーソナライズモデルが主体に対してより長時間ファインチューニングされる場合、得られる主体の忠実度は強くなりますが、姿勢やその他の意味的な属性を編集する柔軟性が低下します。また、これによりスタイルの編集可能性にも影響を与える可能性があります。
手法
ターゲット画像のスタイルを尊重しつつ、主体の本質とアイデンティティを保った主体を生成するために、Magic Insertは以下のステップを取っています:
:事前学習された拡散モデルに基づき、LoRAインクリメンタルを訓練することで重みと埋め込み空間でパーソナライズされた拡散モデルを作成し、同時に拡散デノイジング損失を使用して2つのテキストトークンの埋め込みを訓練します。 :目標画像のスタイルを埋め込み、去噪プロセス中にアダプタースタイルをモデルの選択的アップサンプル層に注入することで、パーソナライズされた拡散モデルを使用してスタイル認識主体を生成します。
スタイル認識パーソナライズ生成主体を挿入するために、以下の手順を実行します:
:分割された主体のバージョンをターゲット画像に貼り付けます。 :影を取り除いた画像上で私たちの主体挿入モデルを実行すると、これは文脈の手がかりを作成し、主体を現実的に画像に組み込み、影や反射も含みます。
すなわち、モデルの出力のサブセットを使用してモデルの有効ドメインに適応させる方法です。具体的な手順は以下の通りです:
主体除去/挿入モデルを使用して、まず目標ドメインのデータセットから主体と影を除去します。 不完全な出力をフィルタリングし、フィルタリング後の画像セットを使用して主体除去/挿入モデルを再訓練します。
私たちは、初期分布(青色)が訓練後(紫色)に変化することを観察しました。当初誤って処理された画像(赤いサンプル)はその後正しく処理されるようになりました(緑色のサンプル)。ブートストラップドメイン適応を行う際には、当初正しいサンプル(緑色)のみで訓練を行います。
対比
スタイル認識型のパーソナライズ手法と、StyleAlign + ControlNet、InstantStyle + ControlNetというトップクラスのベースライン手法との比較です。ベースライン手法も良い出力を生成できますが、全体的な品質ではMagic Insertのスタイル認識型パーソナライズ手法に劣っています。特にInstantStyle + ControlNetの出力は若干ぼやけており、主題の特徴的なコントラストを十分に捉えていないことがわかります。