GoogleのStyleDrop - カスタムスタイルでテキストから画像を生成する

GoogleのStyleDropを見てみましょう。これはカスタムスタイルのテキストから画像を生成するものです。

StyleDropは、特定のスタイルに忠実な画像を生成し、Museによって駆動されます。Museはテキストから画像を生成する生成型ビジュアルトランスフォーマーです。StyleDropは非常に柔軟で、ユーザーが提供したスタイルの微妙な違いや詳細、例えばカラースキーム、シャドウ、デザインパターン、そしてローカルおよびグローバル効果などを捉えることができます。StyleDropは新しいスタイルを効率的に学習し、モデル全体のパラメータの1%未満のトレーニング可能なパラメータを調整し、人間または自動フィードバックによる反復的なトレーニングを通じて品質を向上させます。ユーザーが指定したスタイルの画像を一枚しか提供しなくても、StyleDropは印象的な結果を提供できます。

単一画像スタイル化テキスト生成画像

StyleDropは、一枚のリファレンス画像に基づいて高品質なテキストプロンプト画像を生成することができます。スタイルディスクリプタは、「溶けた金色の3Dレンダリングスタイルで」といった自然言語形式で、訓練時と生成時にコンテンツディスクリプタに付加されます。

スタイル化されたキャラクターレンダリング

StyleDropは、一枚のリファレンス画像に基づいて一貫したスタイルのアルファベット画像を生成することができます。スタイル記述子は、「抽象的な虹色の流れる煙波デザイン」のような自然言語で、訓練時および生成時にコンテンツ記述子に追加されます。

スタイルアシスタントと連携

StyleDropは、独自のブランド資産を使用して簡単にトレーニングでき、自身のスタイルでのプロトタイプ設計アイデアを迅速に支援します。スタイル記述子は、訓練時および生成時に自然言語形式でコンテンツ記述子に追加されます。

比較

StyleDropはMuse(離散トークンのビジュアルトランスフォーマー)でのパフォーマンスにおいて、スタイル調整に関して拡散モデル(Imagen, Stable Diffusion)に基づく方法よりも明らかに優れています。

参照図

異なる技術の比較

技術

StyleDropはMuseを基盤としています。Museは、マスク生成画像トランスフォーマー(MaskGIT)に基づいた最先端のテキストから画像を生成する合成モデルです。

その技術的なポイントは二つあります:

  1. 効率的なパラメータ微調整生成型ビジョントランスフォーマー
  2. フィードバック付きの反復トレーニング

最後に、2つの微調整されたモデルから画像を合成します。

この式も私には理解できません。