昨日紹介したテンセントのPhotoMakerに続いて、今日は別の類似プロジェクトであるInstantIDを見てみましょう:https://instantid.github.io/
論文のタイトルは《InstantID: Zero-shot Identity-Preserving Generation in Seconds》です。
概要
個別化された画像合成において、Textual Inversion、DreamBooth、LoRAなどの手法は大きな進歩を遂げています。しかし、それらの現実世界での応用は、高いストレージ要件、長い微調整プロセス、そして複数の参照画像が必要という制約により制限されています。一方、既存のID埋め込みに基づく方法は単一の順伝播推論だけで済むものの、多くのモデルパラメータに対する広範な微調整が必要であったり、コミュニティで事前学習されたモデルとの互換性が欠けている、または顔の忠実度を維持できないといった課題に直面しています。InstantIDはこれらの問題に対する解決策として機能します。InstantIDのプラグアンドプレイモジュールは、単一の顔画像を使用して様々なスタイルの画像個別化を巧みに行い、同時に高品質を確保します。そのため、研究開発チームは新たなIdentityNetを開発しました。これは強力な意味的条件と弱い空間的条件を組み合わせて、顔とランドマーク画像、テキストプロンプトを通じて画像生成を導きます。InstantIDは優れた性能と効率性を示し、身元保持が重要な現実世界のアプリケーションにおいて非常に価値があります。さらに、InstantIDはSD1.5やSDXLのような人気のある事前学習済みテキストから画像への拡散モデルにシームレスに統合され、適応可能なプラグインとして機能します。
手法
InstantIDの目標は、単一の参照身元識別(ID)画像を使用して、異なるポーズやスタイルを持つカスタマイズされた画像を生成し、かつ高忠実度を確保することです。以下の図はInstantIDメソッドの概要を示しています。それは3つの主要なコンポーネントで構成されています:
堅牢なセマンティック顔情報を取り込むID埋め込み; 画像を視覚的ヒントとして使用するために設計された、分離されたクロスアテンションを備えた軽量の適応モジュール; 参考顔画像の詳細な特徴を符号化し、さらなる空間的な制御を提供するIdentityNet;
InstantIDは、これまでの方法といくつかの点で異なります:
UNetを訓練しないため、元のテキストから画像への生成能力を維持でき、コミュニティ内の既存の事前学習モデルやControlNetsと互換性があります。 テスト時の調整が不要であるため、特定のキャラクターに対して複数の画像を集めて微調整する必要がなく、単一の画像を一度で推論できます。 より高い顔の忠実度を実現し、テキストの編集可能性を維持します。
効果
任意のスタイルにあなたの顔を配置する
InstantIDは、スタイリッシュなスタイルとリアルなスタイルの両方をサポートしています。
編集可能性と複数のリファレンス画像
InstantIDの堅牢性、編集可能性、および互換性を示しています。第1列は推論中にプロンプトを空にした場合の画像のみの結果を表示しています。第2-4列はテキストプロンプトによる編集可能性を示しています。第5-9列は既存のControlNets(cannyやdepthなど)との互換性を示しています。
リファレンス画像の数の影響についてです。複数のリファレンス画像に対して、InstantIDはID埋め込みの平均値を画像プロンプトとして使用します。単一のリファレンス画像であっても、InstantIDは良好な結果を得ることができます。
アイデンティティ識別とスタイル補間
2つの異なるキャラクターの間で補間を行います。
InstantIDはまた、非人間キャラクターにアイデンティティ属性を柔軟に追加することをサポートします。
比較
微調整なしで既存の最先端技術と比較します。具体的には、InstantIDはIP-Adapter(IPA)、IP-Adapter-FaceID、および最近のPhotoMakerと比較されています。ここで、PhotoMakerはUNetのLoRAパラメータの学習を必要とします。結果として、PhotoMakerとIP-Adapter-FaceIDは高い忠実度を実現していますが、テキスト制御能力が著しく低下しています。一方で、InstantIDはより良い忠実度を維持しながら、良好なテキスト編集性(顔とスタイルのより良い融合)も保持しています。
事前学習されたキャラクターLoRAsとのInstantIDの比較です。InstantIDは、トレーニングなしでLoRAsと競合する結果を得ることができます。
InsightFace Swapper(ROOPやRefactorとも呼ばれる)のInstantIDとの比較です。しかし、非現実的なスタイルでは、InstantIDの方が顔と背景を融合させる点でより柔軟です。