Stable Animation テキストから動画を生成

2023年5月11日、Stability AIはStable Animation SDKを公開しました - https://stability.ai/blog/stable-animation-sdk。主に3つの機能があります：

：ユーザーがテキストプロンプト（例: 穏やかな拡散法）を入力し、様々なパラメータを調整してアニメーションを生成します。
：ユーザーがアニメーションの開始点として初期画像を提供します。テキストプロンプトと画像が一緒に使用されて最終的な出力アニメーションが生成されます。
：ユーザーはアニメーションの基礎として初期ビデオを提供します。さまざまなパラメータを調整することで、最終的な出力アニメーションが得られ、そのアニメーションはテキストプロンプトによっても指導されます。

機能：https://platform.stability.ai/docs/features/animation

Terminal 環境でこのスクリプトを実行するだけです：

pip install "stability_sdk[anim_ui]"   # install the animation SDK
python3 -m stability_sdk animate --gui # launch the UI

途中でAPIキーが必要になるので、https://beta.dreamstudio.ai/account のアカウントから取得できます。

スクリプトを実行後、ローカルで http://127.0.0.1:7860/ を開きます。

project ページでプロジェクトを作成すると、renderタブの下でビデオを生成することができます。

私はシンプルなプロンプトを書きました：

{
    0: "A BIRD IS FLYING"
}

すると、72枚の画像を一枚ずつ生成してくれて、このようなビデオになりました：

途中、クレジットが不足したため一度中断し、残高を追加充電しました。10ドルで1000クレジットを充電でき、この72フレームのビデオは27クレジット（約0.27ドル）消費しました。詳しい価格情報はこちらを参照してください：https://platform.stability.ai/docs/features/animation/pricing

もう一つ例を挙げます：

{
    0: "a photo of a cute cat",
    24: "a photo of a cute dog",
}

最初のフレームが猫で最後のフレームが犬に変化するビデオを作成しました。その後のビデオは以下の通りです：

さらに高度な設定を試みたい場合は、パラメータの意味を理解して変更できます：https://platform.stability.ai/docs/features/animation/parameters。

または、他の人のアニメーションの書き方を参考にしたい場合はこちらをご覧ください：https://replicate.com/andreasjansson/stable-diffusion-animation/

例えば、私はこれに基づいて次のアニメーションを作成しました：https://replicate.com/andreasjansson/stable-diffusion-animation/examples#voxuinyafnbxrisoe3zysivkkm

{
    0: "the face of tom cruise very angry, headshot",
    24: "the face of tom cruise smiling a happy smile, headshot",
}

怒っているトム・クルーズから幸せなトム・クルーズへ。

上記はローカルの web ui で Terminal を使用して実行したものです。Google Colab を使用することもできます。公式に提供されているコードはこちらです：https://colab.research.google.com/github/Stability-AI/stability-sdk/blob/animation/nbs/animation_gradio.ipynb。