Controlnet と T2I-Adapter

T2I-Adapterは、テキストから画像を生成するためのアダプタとして騰訊ARCチームによって開発され、今年2月に公開された論文があり、そのコードもGitHub上でオープンソース化されています。

論文のアドレス: https://arxiv.org/pdf/2302.08453.pdf

コードのアドレス: https://github.com/TencentARC/T2I-Adapter

これは大規模なテキストから画像への拡散モデルに追加できる小型モデルであり、その制御性を向上させます。T2I-Adapterは、テキストプロンプトと画像ジェネレーターの内部状態を一致させる方法を学習して動作します。これにより、ユーザーはテキストプロンプトを調整することで、生成される画像をより精密に制御することができます。

公式論文では、T2I-Adapterのいくつかの利点が述べられています。

  • プラグアンドプレイ対応。元のネットワークのトポロジーと生成能力に影響を与えません。
  • シンプルでコンパクト。約77Mのパラメータと約300Mのストレージです。
  • 柔軟性が高い。さまざまな制御条件に対応する様々なアダプタを使用可能です。
  • 組み合わせ可能。複数のアダプタを使用して多条件制御を実現できます。
  • 汎用性がある。カスタムモデルに直接使用可能です。

今回紹介するT2I-Adapterと同様に、これらはすべてテキストから画像を生成する技術です。両者は小型モデルを使用して、大規模な拡散モデルの生成を制御しますが、いくつかの違いがあります。

  • ControlNetはマルチモーダルなトランスフォーマーモデルを使用し、T2I-Adapterは単純な線形モデルを使用しています。(必ずしも正しいとは限りません。Google bardが不明確な情報源に基づいて推測したものです。)
  • ControlNetは生成される画像に対してより細かい制御が可能ですが、T2I-Adapterは軽量です。
  • ControlNetはより多くの訓練データと計算リソースが必要ですが、T2I-Adapterはトレーニングが簡単です。

ControlNetの著者である張呉敏氏は、2022年にスタンフォード大学CS学科の博士課程に所属しており、2021年に蘇州大学を卒業し工学士の学位を取得しています。彼の研究分野には計算芸術・デザイン、インタラクティブコンテンツ作成、コンピュータグラフィックス、画像およびビデオ処理、そしてアニメーションが含まれています。また、「Style2Paints Research」という特別な興味を持つ研究グループを組織し、アニメーション描画ソフトウェア「Style2Paints」を開発しました。

Stable diffusion webUIのextentionsには、ControlnetのモデルやT2I-Adapterのモデルを配置することができます。

効果の比較に関しては、理論上Controlnetの方が若干優れているかもしれませんが、多くのネットユーザーによるレビューによると、出力品質に顕著な差はないようです。しかし、T2I-AdapterはControlNetよりも約3倍速く画像を生成します。

以前はT2I-Adapterのモデル種類が少ないと言われていましたが、最近ではCサイトにもさらに多くのT2I-Adapterモデルが登場しています:https://civitai.com/models/17220?modelVersionId=20330

必要に応じて、サイトの説明に従って自分の環境にインストールできます。

もちろん、ControlNetとT2I-Adapterは併用することも可能です。