今日は、Stability AI(Stable Diffusionを支える企業の一つ)が発表したStableCascadeを見てみました。画像生成の速度と品質が非常に優れています。
最新バージョンのComfyUIでは、これらの機能がサポートされています。
ComfyUIを最新版に更新し、対応するいくつかのモデルをダウンロードすれば、workflowを実行できます。
このdemoのworkflowを使用して、その高速かつ高品質なパフォーマンスを体験できます。https://gist.github.com/comfyanonymous/0f09119a342d0dd825bb2d99d19b781c
モデルの概要
このモデルはWürstchenアーキテクチャに基づいて構築されており、Stable Diffusionとの主な違いは、より小さな潜在空間で動作するため、推論をより速く実行でき、訓練コストも低いことです。
Stable Diffusionは圧縮係数8を使用しており、これにより1024x1024の画像が128x128にエンコードされます。Stable Cascadeでは圧縮係数42を実現しており、1024x1024の画像を24x24にエンコードしつつ、クリアな再構築品質を維持します。その後、高圧縮された潜在空間でテキスト条件付きモデルを訓練します。このアーキテクチャの以前のバージョンでは、Stable Diffusion 1.5と比較してコストが16分の1に削減されました。Stable Cascadeは視覚面および評価において印象的な結果を出し、ほぼすべての比較でプロンプトの一致や美的質感において最高のパフォーマンスを発揮しています。
ファインチューニング(finetuning)、LoRA、ControlNet、IP-Adapter、LCMなどのすべての既知の拡張機能は、この方法でも実現可能です。訓練と推論セクションにはこれらの一部(ファインチューニング、ControlNet、LoRA)がすでに提供されています。現在、ComfyUIはこれらの拡張をサポートしていませんが、近い将来サポートされる予定です。
ControlNet
LoRA
モデルの概要
Stable Cascadeは、段階A、段階B、段階Cという3つのモデルで構成されており、これらは画像生成の連続的な流れを表しており、「Stable Cascade」という名前が付けられています。段階Aと段階Bは画像を圧縮するために使用され、これはStable DiffusionにおけるVAEの役割に似ています。しかし、前述した通り、この設定ではより高度な画像圧縮が可能です。さらに、段階Cはテキストプロンプトに基づいて小さい24x24の潜在空間を生成します。次の図はこのプロセスを直感的に示しています。なお、段階AはVAEであり、段階Bと段階Cはどちらもディフュージョンモデルです。
今回のリリースでは、StabilityAIは段階Cに対して2つのチェックポイント、段階Bに対して2つ、段階Aに対して1つを提供しました。段階Cには10億パラメータと36億パラメータのバージョンがあり、公式には微調整に多くの作業が集中しているため、36億パラメータのバージョンを使用することを強く推奨しています。段階Bの2つのバージョンはそれぞれ7億および15億パラメータを持ち、どちらも優れた結果を出しますが、15億パラメータのバージョンは小さな再構築や詳細な表現においてより優れています。したがって、各段階で大きい変種を使用すると、最良の結果を得ることができます。最後に、段階Aには2000万パラメータが含まれており、その規模の小ささにより固定されています。
比較
Stable Cascade(30ステップ推論)は、Playground v2(50ステップ推論)、SDXL(50ステップ推論)、SDXL Turbo(1ステップ推論)、Würstchen v2(30ステップ推論)と比較されました。
Stable Cascadeの効率への注力は、そのアーキテクチャとより高い圧縮された潜在空間に現れています。最大のモデルはStable Diffusion XLよりも14億パラメータ多くても、依然として高速な推論時間を実現しています。