LayerDiffuse - AI で生成される透明画像

今日は、透明な背景を持つ画像を生成するSD拡張を見ました。この論文は先月の終わりにスタンフォード研究所によって公開されました。

https://arxiv.org/abs/2402.17113

概要

LayerDiffuseは、大規模事前学習された潜在拡散モデルが透明画像を生成できるようにします。この手法は、単一の透明画像や複数の透明レイヤーを生成することができます。この手法は「潜在的な透明度」を学習し、アルファチャンネルの透明度を事前学習済みの潜在拡散モデルの潜在的多様体にエンコードします。追加の透明度を潜在オフセットの形式で調整することで、大規模な拡散モデルの品質を維持しつつ、元の事前学習モデルの潜在分布への変更を最小限に抑えます。この方法により、任意の潜在拡散モデルを微調整して、透明画像ジェネレーターに変えることができます。

使用効果

Stable DiffusionのWebUI(Forgeバージョン)でLayerDiffuseを使用でき、ComfyUIでもコミュニティメンバーによるworkflowが提供されています。現在、公式に提供されている例は主にテキストから画像を生成するアプリケーション向けであり、画像から画像を生成する機能はまだリリースされていません。

使用シーン

  1. 透過画像のみ生成(アテンション注入):このシーンでは、透明度を持つ前景オブジェクトのみを生成し、前景や背景のテキストまたは画像のヒントは必要ありません。


  2. すべての要素を同時に生成:このシーンでは、モデルが提供された前景、背景、および混合図に関するテキストヒントに基づいて、完全な画像を生成します。同時に、透明な前景オブジェクト、背景画像、および混合図も出力されます。


  3. 背景から混合図への生成:ここでは、モデルが背景画像を使用して混合図を生成しますが、前景オブジェクトや混合図の直接的な生成には関与しません。


  4. 前景から混合図への生成:このシーンでは、モデルが前景オブジェクトの画像ヒントに基づいて混合図を生成しますが、背景画像の直接的な生成には関与しません。


  5. 背景から前景への生成:モデルは背景のテキストプロンプトと前景の画像プロンプトを受け取り、前景オブジェクトと合成画像を生成しながら、前景オブジェクトの透明度を処理する能力を保持します。


  6. 背景と混合図から前景への生成:このシナリオでは、モデルが背景と混合図の画像プロンプトを使用して前景オブジェクトを生成し、主に前景の透明度処理に焦点を当てます。


  7. 前景から背景への生成:モデルは前景オブジェクトの画像と背景のテキストプロンプトを使用して背景画像と混合図を生成し、透明な前景オブジェクトを直接生成することはありません。


  8. 前景と混合図から背景への生成:このシナリオでは、モデルが前景と混合図の画像プロンプトに基づいて背景画像を生成し、透明な前景オブジェクトの直接的な生成は行いません。


技術的詳細

人間の参加を組み込んだサイクル収集スキームを使用して、モデルを訓練するために100万対の透明画像レイヤーのペアを収集しました。LayerDiffuseは、潜在的な透明度が異なるオープンソースの画像生成器に適用可能であるか、または様々な条件付き制御システムに適応できることを示しています。これは、前景/背景条件でのレイヤー生成、結合されたレイヤー生成、レイヤーコンテンツの構造制御などのアプリケーションで使用可能です。

フレームワークは透明画像を受け取り、「潜在透明度」をエンコードしてStable Diffusionの潜在空間を調整します。調整された潜在画像は、色チャンネルとアルファチャンネルを再構築するためにデコードすることができます。この透明度を持つ潜在空間は、事前学習済みの画像拡散モデルの更なる訓練や微調整に使用できます。

比較

97%のケースで、ユーザーは以前の暫定的な解決策(例:生成後に切り抜きを行う)よりも、LayerDiffuseによってネイティブに生成された透明コンテンツを好むと報告しました。

ユーザーはさらに、LayerDiffuseによって生成された透明画像の品質が、Adobe Stockのような透明な背景を提供する商業ストック画像ライブラリと同等であるとも報告しています。