今日は南開大学とバイトダンスが発表したプロジェクト、StoryDiffusionを見ました。提案された一貫性自己注意機構を用いて、キャラクターのスタイルや衣装の一貫性を保ちながら、さまざまなスタイルの漫画を生成し、連続的な物語を実現します。
Feature
キャラクターゲネレーション
StoryDiffusionは驚くべき一貫性のあるカートゥーンスタイルのキャラクターを作成できます。
マルチキャラクターゲネレーション
StoryDiffusionは複数のキャラクターのアイデンティティの一貫性を維持し、一連の画像で一貫したキャラクターを生成できます。
ロングビデオゲネレーション
StoryDiffusionは、生成された一貫性のある画像またはユーザー入力画像を条件として使用し、画像セマンティックモーション予測器を通じて高品質なビデオを生成します。
ビデオクリップデモンストレーション
モーション予測器の性能を示すために。
Method
一貫性自己注意の構造
StoryDiffusionの生成パイプラインはテーマの一貫性のある画像を生成するために使用されます。
物語を描写するための一貫性のある画像を作成するために、StoryDiffusionは事前に学習されたテキストから画像への拡散モデルに一貫性自己注意機構を統合します。
StoryDiffusionは物語のテキストを複数のプロンプトに分割し、それらのプロンプトを使用して画像をバッチ生成します。
一貫性自己注意はバッチ生成される複数の画像間で接続を確立し、テーマの一貫性を保ちます。
モーション予測器の構造
StoryDiffusionの方法パイプラインは、第3.1節で述べられているように、トランジションビデオを生成し、テーマの一貫性のある画像を得るために使用されます。
キャラクターの大規模な動きを効果的にシミュレートするために、StoryDiffusionは条件画像を画像セマンティック空間にエンコードし、空間情報をエンコードし、トランジション埋め込みを予測します。
これらの予測された埋め込みはその後、ビデオ生成モデルを使用してデコードされ、クロスアテンションで制御信号として機能し、各フレームの生成をガイドします。
Example
自分では花城の例を試しました: