UCバークレーの2つの論文：LLM強化の拡散モデルがテキストから画像への変換における応用の探求

今日は、大型言語モデル（LLM）を使用して拡散モデル（Diffusion Models）を制御する方法に焦点を当てた2つの類似した論文を読みました。

これらの2つの論文はいずれもUC Berkeleyで発表されたもので、『LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models』と『Self-correcting LLM-controlled Diffusion Models』であり、それぞれ昨年の5月と11月に公開されました。

関連プロジェクトのウェブサイトは次の通りです：

https://llm-grounded-diffusion.github.io
https://self-correcting-llm-diffusion.github.io

まず最初の論文を見てみましょう：『LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models』

：テキストプロンプト（Text Prompt）-> 大型言語モデル（LLM）-> 中間表現（例：画像レイアウト）-> スタビルド拡散（Stable Diffusion）-> 画像

拡散モデルは、特に数値演算や空間推論に関連するプロンプトにおいて、依然として複雑なプロンプトの処理に課題を抱えています。本研究では、大規模言語モデル（LLM）を用いた拡散モデルにおけるプロンプト理解能力の向上手法であるLMDが提案されています。

LMD手法は、事前学習済みの大規模言語モデル（LLM）を活用し、新しい二段階プロセスを通じて根拠のある生成を実現します：

では、LLMは与えられたプロンプト記述に基づいてシーンレイアウトを生成します。このレイアウトには、生成したい画像を説明するタイトル付きのバウンディングボックスが含まれます。
では、新規のコントローラーが既存の拡散モデルをガイドし、レイアウトベースの画像生成を行います。

これらの両方の段階は既存の事前学習済みモデルを使用しており、追加のモデルパラメータの最適化は必要ありません。

LMDは自然に以下を達成できます：

a. 指令に基づく多段階のシーン仕様；

b. 基礎拡散モデルがサポートしていない言語からのプロンプトによる画像生成。

対比

LMD手法は、基礎拡散モデルやいくつかの強力なベンチマークを超えて、さまざまな能力を要するプロンプト記述に基づく画像生成の精度を平均して4つのタスクで倍増させています。

第二の論文『Self-correcting LLM-controlled Diffusion Models』

：既存の拡散ベースのテキストから画像へのジェネレーター（例えばDALL-E 3）は、特に数値演算や空間関係を必要とするプロンプトに対して、複雑な入力プロンプトと完全に一致する画像を正確に生成することが難しい場合があります。

SLDフレームワークは、一連の潜在空間操作（追加、削除、再配置など）を適用することにより、これらの拡散モデルが不正確な部分を自動的かつ反復的に修正できるようにすることで、より良いテキストから画像へのアライメントを実現します。

SLDフレームワークの特徴は以下の通りです：

自己修正：LLM統合型検出器によって生成モデルが強化され、精密なテキストから画像へのアライメントが実現されます。
統一された生成と編集：画像生成および細かい編集において優れた性能を発揮します。
汎用互換性：DALL-E 3などの任意の画像ジェネレーターに対応し、追加のトレーニングやデータは不要です。

SLDは、反復的な自己修正プロセスを通じてテキストから画像へのアライメントを強化します。それはLLM駆動のオブジェクト検出から始まり、その後LLM制御の解析と修正が行われます。

SLDの潜在操作は、2つの主要な概念に要約できます：

削除された領域の潜在表現はガウスノイズで再初期化され、新しく追加または変更されたオブジェクトの潜在表現はキャンバス上に合成されます。
潜在合成は初期ステップに限定され、その後標準の前方拡散プロセスの「解凍」ステップが続き、これにより視覚品質が向上し、人工的なコピー＆ペースト効果を回避します。

OWL-ViT v2オープンボキャブラリ検出器の高度な位置特定能力を利用することで、画像内のすべてのカモメを正確に識別し、ユーザーのプロンプト要件に従って選択的に削除することができます。次図のように：

SLDは、SDXL、LMD+、DALL-E 3を含む様々な拡散ベースの生成モデルにおけるテキストから画像へのアライメント精度を向上させます。例えば、最初の行の赤枠で示されているように、SLDはベンチやヤシの木に関連する青い自転車を正確に位置付けつつ、ヤシの木やカモメの正確な数を維持しています。2行目はさらに、複雑で混乱したシーンでのSLDの堅牢性を示しており、無学習の潜在操作を通じてオブジェクト衝突を効果的に管理しています。

SLDは、自然で人間に類似した指示によって導かれる様々な画像編集タスクを処理できます。その能力は、オブジェクト数の調整から属性、位置、サイズの変更まで広範囲にわたります。次図をご覧ください。

対比

これらのオブジェクトレベルの編集において顕著に優れた性能を示しています。