物語の可視化、つまり叙述に基づいて一貫した画像を生成するタスクは、テキストから画像へのモデル、特に拡散モデルの応用によって、著しい進展を遂げています。しかし、長編の物語の可視化(最大100フレームの生成)においては、意味的一貫性を維持し、高品質な細かいインタラクションを生成し、計算上の実現可能性を確保することが依然として挑戦となっています。

概要 🦖
特に長編物語のシーンにおいて、意味的一貫性と細かいインタラクション生成能力の向上における優位性が示されています。

フレームワーク 🤖
下図は、提案された反復パラダイムを示しており、初期化、Story-Adapter内の反復プロセス、およびグローバルリファレンスクロスアテンション(GRCA)の実装を含んでいます。Story-Adapterはまず、物語のテキストプロンプトのみを使用して各画像を可視化し、生成されたすべての結果を将来のラウンドでのリファレンス画像として使用します。反復プロセス中、Story-AdapterはGRCAをSDに挿入します。各ラウンドのi番目の画像可視化では、GRCAはクロスアテンションを通じて去噪プロセス中にすべてのリファレンス画像の情報流を集約します。各反復のすべての結果はリファレンス画像として機能し、次の反復ラウンドにおける物語可視化の動的更新を導きます。

パフォーマンス 🎨
通常の長さの物語可視化
長編物語可視化

比較 📊
は効果的な物語可視化のニーズに更好地対応しています。

試用 🚀
https://colab.research.google.com/drive/1sFbw0XlCQ6DBRU3s2n_F2swtNmHoicM-