ControlNetの作成者の最新プロジェクト Omost - LLMを用いた画像合成

ControlNetの作成者は最近、新しい研究プロジェクトであるOmostを発表しました。

https://github.com/lllyasviel/Omost

Omostは、大規模言語モデル(LLM)のコーディング能力を画像生成(より正確には、画像合成)能力に変換することを目指しています。

その名前には二つの意味があります:

  1. Omostを使用するたびに、あなたの画像は「ほぼ」完成します;
  2. それは私達がその可能性を最大限に活用したいことを意味します。

特定の実装された画像ジェネレーターでレンダリングされ、最終的に画像が生成されます。

現在、著者は Llama3 および Phi3 変種に基づく3つの事前学習済みLLMモデルを提供しています(具体的なモデルの説明はページ末尾のモデル注釈を参照してください)。すべてのモデルは以下のデータミックスで訓練されています:

  1. Open-Images を含む複数のデータセットの実際のラベル付けデータ;
  2. 自動ラベル付けされた画像から抽出されたデータ;
  3. DPO(Direct Preference Optimization、「コードがPython 3.10上でコンパイルできるかどうか」を直接の好みとして)からの強化データ;
  4. OpenAI GPT4o のマルチモーダル機能によって提供される少量のチューニングデータ。

これらの事前学習モデルを通じて、ユーザーは効率的に画像コンテンツを生成および合成することができます。

https://huggingface.co/spaces/lllyasviel/Omost でデモを実行し、Omost の完全なプロセスを体験できます。


  1. 一文のプロンプトを入力する

a dog and a cat

  1. その後、Omost が動作を開始します


  2. そして画像をレンダリングします


  3. 例えば、犬はテディー犬です

the dog is a Teddy dog

  1. Omost でさらに展開します


  2. 最後に画像をレンダリングします