中山大学と美図が発表した CatVTON 仮想試着

仮想試着の方法についてはすでに多くのものが共有されています:

今日は中山大学と美図が発表したものを紹介します——🐈

拡散モデルに基づく仮想試着法は現実的な試着効果を実現できますが、ReferenceNetや追加の画像エンコーダーが必要であり、これにより訓練と推論コストが高くなります。本研究では、チームはReferenceNetと画像エンコーダーの必要性を見直し、衣装と人間の間のインタラクションを革新し、CatVTONというシンプルで効率的な仮想試着拡散モデルを提案しました。このモデルは空間次元上で入力を単純に連結することで、店舗内または着用中の任意のカテゴリの衣装をターゲット人物にシームレスに転移させます。

CatVTONモデルの効率性は以下の3つの点に現れます:

  1. :元の拡散モジュールのみを使用し、追加のネットワークモジュールはありません。骨格ネットワーク内のテキストエンコーダーとクロスアテンションモジュール(テキスト注入用)を削除し、さらに167.02Mのパラメータを削減しました。

  2. :実験を通じて試着に関連するモジュールを特定し、49.57Mのパラメータ(骨格ネットワークの約5.51%)のみを訓練して、高品質な試着効果を実現しました。

  3. :CatVTONは姿勢推定、人体解析、テキスト入力などのすべての不要な条件や前処理ステップを排除し、衣服参照、目標人物画像、マスクがあれば仮想試着プロセスを完了できます。

試用:

ComfyUI Workflow

Gradio App


構造

CatVTONの手法は、条件画像(衣服または参考人物)と目標人物画像を空間次元上で単純に連結することで、高品質な試着効果を実現し、それらが拡散プロセス全体を通じて同じ特徴空間に保持されるようにします。訓練中には、グローバルインタラクションを提供する自己注意パラメータのみが学習可能です。不要なテキストインタラクション用のクロスアテンションモジュールは省略され、姿勢や解析といった追加の条件も必要ありません。これらの要因により、当社のネットワークは軽量であり、必要なトレーニング可能なパラメータが最少で、推論プロセスも簡略化されています。

対比

構造対比

以下では、異なる仮想試着方法の簡単な構造対比を示します。私たちの方法は変形された衣服にも依存せず、追加の衣服エンコーディングに使用される重いReferenceNetも必要なく、衣服画像と人物画像を単純に連結して入力するだけで、高品質な試着効果を得ることができます。

効率対比

各手法を2つの同心円で表現し、外側の円は総パラメータ数、内側の円はトレーニング可能なパラメータ数を表し、面積はパラメータ数に比例します。VITONHDデータセット上では、CatVTONは総パラメータ数、トレーニング可能なパラメータ数、メモリ使用量が少ないにもかかわらず、低いFID値を達成しています。