ControlNetの作成者は最近、新しい研究プロジェクトであるOmostを発表しました。
https://github.com/lllyasviel/Omost
Omostは、大規模言語モデル(LLM)のコーディング能力を画像生成(より正確には、画像合成)能力に変換することを目指しています。
その名前には二つの意味があります:
Omostを使用するたびに、あなたの画像は「ほぼ」完成します; それは私達がその可能性を最大限に活用したいことを意味します。
特定の実装された画像ジェネレーターでレンダリングされ、最終的に画像が生成されます。
現在、著者は Llama3 および Phi3 変種に基づく3つの事前学習済みLLMモデルを提供しています(具体的なモデルの説明はページ末尾のモデル注釈を参照してください)。すべてのモデルは以下のデータミックスで訓練されています:
Open-Images を含む複数のデータセットの実際のラベル付けデータ; 自動ラベル付けされた画像から抽出されたデータ; DPO(Direct Preference Optimization、「コードがPython 3.10上でコンパイルできるかどうか」を直接の好みとして)からの強化データ; OpenAI GPT4o のマルチモーダル機能によって提供される少量のチューニングデータ。
これらの事前学習モデルを通じて、ユーザーは効率的に画像コンテンツを生成および合成することができます。
https://huggingface.co/spaces/lllyasviel/Omost でデモを実行し、Omost の完全なプロセスを体験できます。
一文のプロンプトを入力する:
a dog and a cat
その後、Omost が動作を開始します:
そして画像をレンダリングします:
例えば、犬はテディー犬です
the dog is a Teddy dog
Omost でさらに展開します:
最後に画像をレンダリングします