今日は、騰訊AIラボから発表された図から図への生成アルゴリズムを研究しました。このアルゴリズムの論文は2023年8月13日に公開され、リンクはこちらです:(https://arxiv.org/abs/2308.06721)。
このプロジェクトはIP-Adapterと名付けられ、プロジェクトページはこちらです:(https://ip-adapter.github.io/)。
これまでのテキストから画像への生成手法とは異なり、IP-Adapterのコア機能は画像から画像への変換(Image-to-Image)です。簡単に言えば、これは効率的かつ軽量なアダプタで、事前に学習されたテキストから画像へのDiffusionモデルに画像提示機能を追加することを目指しています。
その中心的な設計理念は、分離されたクロスアテンションメカニズムであり、テキストと画像の特徴を独立して処理するクロスアテンション層を持っています。
さらに、IP-Adapterには以下の利点があります:
わずか22Mのパラメータしか持たないにもかかわらず、ファインチューニングされた画像提示モデルの性能に達したり、場合によってはそれを上回ったりします。(最後の列は 同じベースモデルからファインチューニングされた他のモデルにも適用可能です。 既存のツールを使用した制御可能な生成をサポートします。 画像とテキストのヒントを組み合わせて、優雅にマルチモーダルな画像生成を実現できます。
具体的な技術方案は以下の通りです(画像のヒントは「真珠を身につけた少女」、テキストのヒントは「A girl with sunglasses」)。