バイトダンスのフェイススワップソリューション:PuLIDの概要

個人の特徴を保持しながら顔を入れ替える関連方案の以前の結果は次の通りです:

(コントラスティブ・アラインメントによるピュアで高速なIDカスタマイズ)は、追加の調整パラメータを必要としないアイデンティティカスタマイズ方法です。これにより、高いアイデンティティ忠実度を維持しながら、元のモデル動作への干渉を効果的に最小限に抑え、ユーザーに効率的で柔軟な顔入れ替えソリューションを提供します。

主な特徴

  • :生成結果が元のアイデンティティ特徴を高度に保持することを確保します。
  • :元のモデルの他の機能への影響を最小限に抑えることを目指します。

使用上の注意

  1. :ページの下部にはいくつかの例が提供されており、これらのプロンプトを直接試すことができます。

  2. :単一のアイデンティティ画像で通常は十分ですが、他の補助画像も追加できます。

  3. 二つのモード

  • (デフォルト):ほとんどの場合、このモードで要件を満たすことができます。

  • :生成結果が十分にスタイル化されていない場合は、このモードに切り替えてください。

プロジェクト背景

PuLIDは標準拡散モデルとLightning T2Iブランチを組み合わせ、対比アラインメント損失と正確なアイデンティティ損失を導入し、元のモデル動作への干渉を最小限に抑えながら、高いアイデンティティ忠実度を確保します。

  1. 双方向アーキテクチャ

  • :伝統的な拡散訓練プロセスを実行します。
  • :高速サンプリング法を通じて、純粋なノイズから反復的に去噪を行い、わずか数ステップ(本論文では4ステップ)で高品質な画像を生成します。
  • 損失関数の最適化

    • :アイデンティティ注入あり/なしの対比パスを構築し、モデルがアイデンティティ条件を注入する際に元のモデル動作への干渉を最小限に抑えるよう指導します。
    • :生成されるアイデンティティ特徴が正確かつ現実的であることを確保します。
  • 一貫性強化

    • アイデンティティ挿入前後で画像要素(例えば背景、照明、構図、スタイルなど)の最大限の一貫性を保持します。

    フレームワーク概要

    • :伝統的な拡散モデルの訓練プロセス。同じ画像から抽出された顔をアイデンティティ条件として入力します(
    • :Lightning T2Iブランチで、高速サンプリング技術を使用し、純粋なノイズから高品質画像への去噪過程を数ステップで完了します。
      • :アイデンティティ注入あり/なしパスの対比。
      • :モデルがアイデンティティ条件を正確に挿入するよう指導します。

    比較