UIUCとマイクロソフトの研究者が論文「Multi-LoRA Composition for Image Generation」を発表し、
Low-Rank Adaptation (LoRA)は、テキストから画像へのモデルに広く使用されており、生成される画像内の特定の要素(例えば、ユニークなキャラクターやスタイル)を正確に表現するために使われています。以前にLoRAについて紹介したことがあります。
しかし、現在の手法は、特に統合するLoRAの数が増える場合、複数のLoRAを効果的に組み合わせる際に課題を抱えています。これにより、複雑な画像の作成が妨げられていました。この論文では、複数のLoRAの組み合わせについてデコードの観点から研究し、2つのトレーニングを必要としない方法を提案しています:
各ディノイズステップで異なるLoRAを交互に使用するLoRA Switch すべてのLoRAを同時に結合して、より一貫性のある画像合成を導くLoRA Composite
プロジェクトの特徴
🚀 トレーニングを必要としない手法
LoRA SwitchとLoRA Compositeは、ファインチューニングなしに複数のLoRAを動的に正確に統合します。 LoRAの重みをマージする方法とは異なり、私たちの手法はデコードプロセスに焦点を当てており、すべてのLoRAの重みを保持します。
📊 ComposLoRAテストプラットフォーム
包括的な新しいプラットフォームで、6つのカテゴリに分類された22の事前学習済みLoRAと480のコンビネーションセットを含んでいます。 ComposLoRAは、LoRAベースの組み合わせ可能な画像生成タスクを定量的に評価することを目指しています。
📝 GPT-4Vに基づく評価器
私たちは、GPT-4Vを評価器として使用して、コンビネーションの効果と画像の品質を評価することをお勧めします。 この評価器は、人間の判断との相関がより高いことが示されています。
🏆 優れたパフォーマンス
自動化された評価と人の評価の両方が、私たちの手法が人気のあるLoRA Mergeよりも明らかに優れていることを示しています。 私たちの手法は、複雑なコンビネーションを生成する際にさらに大きな利点を示しています。
生成プロセス
3種類のMulti-LoRA技術の概要:それぞれの色付きLoRAは独自の要素を表しています。一般的な手法であるLoRA Mergeは、複数のLoRAを線形に一つにまとめます。それに対し、私たちの手法はディノイズプロセスに焦点を当てています。LoRA Switchはディノイズプロセス中に異なるLoRAを順番に使用し、LoRA CompositeはすべてのLoRAを全体の生成プロセスのガイドとして使用します。