「AutoStory：最小限の入力で高品質で多様な物語叙述画像を作成」

今日はボブが浙江大学に関する論文を共有しました。「AutoStory: 最小限の人間の介入で多様な物語叙述画像を生成する」。https://github.com/aim-uofa/AutoStory

コードは後で公開されると言われています。今はまずその効果と論文を見てみましょう。https://arxiv.org/pdf/2311.11243.pdf

【概要】

物語の可視化は、テキスト記述に一致する一連の画像を生成することを目指しており、これには高品質な画像の生成、テキスト記述との一致、およびキャラクターのアイデンティティにおける一貫性が求められます。本論文では、人間の介入を最小限に抑えながら、多様で高品質かつ一貫した物語画像セットを効率的に生成できる自動物語可視化システムが提案されています。

具体的には、大規模言語モデルの理解力と計画力を用いてレイアウトプランニングを行い、その後、大規模なテキストから画像へのモデルを利用して、レイアウトに基づいて複雑な物語画像を生成します。

研究チームの実証によれば、疎な制御条件（例えばバウンディングボックス）はレイアウトプランニングに適し、密集した制御条件（例えばスケッチやキーポイント）は高品質な画像コンテンツの生成に適しています。そのため、シンプルなバウンディングボックスレイアウトを最終画像生成のためのスケッチやキーポイント制御条件に変換する密集条件生成モジュールが設計されました。これにより、画像品質が向上し、ユーザーが直感的かつ簡単にインタラクションできるようになります。

さらに、本論文では、多視点の一貫性を持つキャラクター画像を生成するための単純で効果的な方法が提案されており、これによりキャラクター画像の収集や描画に人力を依存する必要がなくなります。これによって、テキストのみを入力としても一貫した物語の可視化が可能になります。

【全体のプロセス】

ユーザーは、物語を説明する短いコマンドを提供するだけでよく、各キャラクターに対して任意で数枚の画像を提供することができます：

(a) 条件準備段階：対応するテキストプロンプトのバウンディングボックスレイアウトと、スケッチやキーポイントの密集条件を生成する。
(b) 条件付き画像生成段階：準備された条件に基づき、マルチ主体カスタムモデルを使用して物語画像を生成する。
(c) 物語からレイアウトへの変換：大規模言語モデル（LLM）を使用してプロンプトとレイアウトを生成する。
(d) 密集条件生成：既存の知覚モデルを使用して、シングル主体カスタムモデルから生成されたオブジェクト画像から密集した制御信号を抽出する。

【一貫性のあるキャラクター画像生成の秘訣】

(c)で単一のキャラクターの複数のアイデンティティ一貫性のある画像を生成するために、まず単一のキャラクター画像を生成し、次に(a)で得られた多視点画像を得るためにビューコンディションの画像変換モデルを適用します。その後、(b)でこれらの画像からスケッチ条件を抽出し、それらを条件として使用して最終的なキャラクター画像生成の多様性を向上させます。(d)では、アイデンティティの一貫性を向上させるためにトレーニングを必要としない一貫性モデリング手法が導入されます。

【比較】

この論文の方法と他の方法の効果を比較できます。一番下の行がAutoStoryの方法です。

【さらなる実装の詳細】

大規模言語モデルの詳細なプロンプト。本文第3節で述べているように、大規模言語モデル（LLM）を用いて

ステップ1：物語生成

ステップ2：画面分割

ステップ3：グローバルプロンプト生成

ステップ4：レイアウト生成

【主要な結果について】

下図は、異なるキャラクターや物語の展開、そして画像スタイルにおける本論文の方法による物語画像生成結果を示しています。ここでは、各物語のカスタムモデルの訓練に使用されたキャラクター画像が表示されています。左側2列の物語可視化結果は、ユーザーが提供したキャラクター画像を使用して得られています。

【中間結果の可視化】

もし個々の物語画像生成の中間過程を可視化すると、まずLLMによって生成された局所プロンプトに基づいて個別のキャラクター画像が生成されます。(a)と(b)に示されている通りです。

その後、Grounding-SAM、PidiNet、HRNetなどの知覚モデルを使用して、ヒューマンキャラクターのキーポイントや非ヒューマンキャラクターのスケッチを取得します。(c)と(d)に示されている通りです。

その後、LLMによって生成されたレイアウトを使用して、個別主題のキーポイントやスケッチを物語画像生成に使用するための密集条件に結合します。(e)に示されている通りです。

最後に、これらの密集条件、プロンプト、レイアウトに基づいて物語画像が生成されます。(f)に示されている通りです。

【さらに多くの物語】

下図にはさらに多くの物語可視化結果が示されています。長編物語を生成する場合でも、AutoStoryは高品質でテキストと整合性があり、アイデンティティの一貫性がある物語画像を生成できることを確認できます。