高速画像生成 - 潜在的一貫性モデル (LCMs)

)、今日はLCMを見てみましょう。公式サイトは https://latent-consistency-models.github.io/です。


LCMは、Latent Consistency Modelsの略で、清华大学のチームが開発したモデルであり、画像合成の効率と品質を向上させることが目的です。これは私がシリコンバレーに行き、Lepton AIの贾揚清社長から学んだ際に彼が言及したものでした。

高速かつ効率的な画像合成

LCMsは、潜在拡散モデル(LDMs)の反復サンプリングプロセスを最適化し、任意の事前学習されたLDM(例:安定した拡散モデル)での高速推論を可能にします。この方法は、潜在空間で強化確率流ODE(PF-ODE)の解を直接予測することで、極めて少ないステップで高速推論を実現します。


コアアドバンテージ:Few-Step Generated Images

LCMsの大きな特徴の一つは「Few-Step Generated Images」機能です。約4,000ステップのトレーニングだけで、任意の事前学習済みStable Diffusionモデルから本質を抽出し、768 x 768ピクセルの高解像度画像を生成できます。これにより、テキストから画像への生成プロセスが大幅に加速されます。

Latent Consistency Fine-tuning (LCF)

LCFは、事前学習されたLCM向けに設計されたファインチューニング手法です。教師拡散モデルなしで、カスタムデータセット上で効率的に数ステップの推論を実現でき、事前学習済みのLCMを直接ファインチューニングするための実用的な代替案を提供します。


LCMを体験する

最初の体験は、Leptonのウェブサイトで遊んだ時です。 https://www.imgpilot.com/ 出力される画像の質は非常にクリアでスムーズでした。


AnimateDiffとLCMを組み合わせて

)とLCMを組み合わせ、動画を迅速に生成します。その効果は非常にクールです。https://www.fal.ai/models/animatediff-lcm。

)を使用して、AnimateDiffとLCMで動画を生成することもできます。以下のFlowを参考にしてください - https://app.flowt.ai/app/community/flow/654e3871a3cc748a6beffe40。