騰訊のPhotoMaker - さらに速く、より似せられ、より制御可能なAIアバター

先日、Shenshenさんは私にPhotoMakerとInstantIDプロジェクトを紹介してくれました。今日はまずPhotoMakerを見ていきます。プロジェクトのアドレス:https://github.com/TencentARC/PhotoMaker

この研究チームは主に、南開大学、騰訊PCGのARCラボ、東京大学から構成されています。

論文のタイトルは『PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding』です。

概要

テキストから画像を生成する技術は、テキストプロンプトに基づいて現実的な人間の写真を合成する上で著しい進展を遂げています。しかし、既存のパーソナライズされた生成手法は、高い効率性、ID忠実度、そして柔軟なテキスト制御性という3つの要件を同時に満たすことができません。一方で、騰訊のPhotoMakerはそれを達成できます。これは主に、任意の数の入力ID画像をスタックID埋め込み方式でエンコードし、ID情報を保持します。このような埋め込みは統一されたID表現として機能し、同じ入力IDの特徴を包括的にカプセル化するだけでなく、異なるIDの特徴も収容でき、その後の統合を容易にします。

方法

私たちの手法は、同じアイデンティティを持つ複数の入力画像をスタックされたID埋め込みに変換します。この埋め込みは、生成されるアイデンティティの統一的な表現と見なすことができます。推論段階では、スタックされたID埋め込みを構成する画像は異なるアイデンティティから来ても問題ありません。その後、これらのカスタマイズされたアイデンティティを異なる文脈で合成することができます。

  1. 私たちは、テキストエンコーダーと画像エンコーダーからそれぞれテキスト埋め込みと画像埋め込みを取得します。
  2. 私たちは、対応するカテゴリ埋め込み(例:男性と女性)と各画像埋め込みを結合することで、融合埋め込みを抽出します。
  3. 私たちは、すべての融合埋め込みを長さの次元に沿って連結し、スタックされたID埋め込みを形成します。
  4. 私たちは、すべてのクロスアテンション層にスタックされたID埋め込みを入力し、拡散モデルでIDコンテンツを適応的に融合させます。

注意が必要なのは、訓練時には背景がマスクされた同一IDの画像を使用していますが、推論時には異なるIDの画像を直接入力でき、背景の歪みを生じることなく新しいIDを作成できます。

効果

再構築

私たちのPhotoMakerが基本的なプロンプトでの生成能力を示します。各画像の下には、創造を促したプロンプトを表示しています。

アート作品や古い写真に登場する人物を現実世界に蘇らせる

アート作品、彫刻、または誰かの古い写真を入力することで、私たちのPhotoMakerは前世紀や古代の人物を現代に持ち込み、「彼ら」の写真を撮ることができます。私たちは各画像の下に、その創造のきっかけとなったヒントを表示しています。

スタイリッシュ化

私たちのPhotoMakerは、リアルな人間の写真を生成する能力だけでなく、アイデンティティを示す特徴を保ちながらスタイリッシュ化することもできます。私たちは最初の行に、その創造のきっかけとなったヒントを表示しています。

年齢や性別を変更する

単純にカテゴリーワードを置き換えることで(例えば、男性と女性)、私たちの手法は元のアイデンティティを維持しながら性別や年齢を変化させることができます。

アイデンティティの混合

ユーザーが異なるアイデンティティの画像を入力した場合、PhotoMakerは異なるアイデンティティの特徴をうまく統合し、新しいアイデンティティを作り出すことができます。

アイデンティティの混合において、PhotoMakerの手法は、入力画像プール内のアイデンティティ画像の比率を制御するか、プロンプト加重の方法を使用して、マージ比率を調整することができます。

まず、PhotoMakerの手法が、入力画像プール内の異なるアイデンティティの比率を制御することで、どのように新しいカスタムアイデンティティを作成するかを見てみましょう。

次に、PhotoMakerは特定のアイデンティティ識別子に関連する画像の埋め込みを係数で掛けることで、新しいアイデンティティにおける融合比率を制御します。

比較

他の方法と比較して、PhotoMakerは高品質かつ多様な生成能力、有望な編集可能性、高い推論効率、そして強力なアイデンティティ忠実度を同時に満たすことができます。