SMooDi - AIによるリアルでスタイル化されたキャラクターの動き生成

」という論文を読みました。現在、ソースコードは公開されていません。この研究はNortheastern University、Stability AI、Google Researchのチームが共同で行ったものです。

SMooDiは、コンテンツテキストとスタイル動作シーケンスによって駆動されるスタイル化された動作を生成する拡散モデルです。既存の方法が様々なコンテンツの動作を生成するか、または一つのシーケンスから別のシーケンスへスタイルを移転するのに対し、SMooDiは様々なコンテンツと複数のスタイルを持つ動作を迅速に生成することができます。

 コンテンツテキストとスタイル動作シーケンスに基づいて、現実的かつスタイル化された人間の動作を生成することができます。また、動きのシーケンスもコンテンツ入力として受け付けます。ビデオ内での色が濃い部分は、シーケンス内の後半のフレームを示しています。より良いスタイル化された動作生成の展示のために、SMooDiチームは各スタイル動作シーケンスにスタイルラベルを追加しました。これらのスタイルラベルはモデルへの入力には使用されず、視覚的な表示のみに用いられていますのでご注意ください。

手法

SMooDiの概要

SMooDiモデルは、コンテンツテキストとスタイル動作シーケンスからスタイル化された人間の動作を生成します。ノイズ除去ステップではt 、SMooDiモデルはコンテンツテキストc 、スタイル動作s 、およびノイズのある潜在変数zt を入力として受け取り、ϵt を予測し、それをz に渡します。このノイズ除去ステップはT 回繰り返され、ノイズのない動作の潜在変数z0 を得て、それを動作デコーダーD に入力してスタイル化された動作を生成します。

スタイルアダプターの詳細な説明

SMooDiのスタイルアダプターはゼロ線形層を通じて動作拡散モデルと接続されています。スタイルアダプターは各Transformerエンコーダからの出力を動作拡散モデルに加算することで、予測されたノイズを目標のスタイルに向かって導きます。

分類器フリーと分類器ガイドによるスタイル指導の視覚的な説明

  •  はそれぞれ、分類器フリーのコンテンツとスタイル指導を示しています;
  •  を組み合わせた初期のスタイル化された動作を示しています;
  •  は、分類器ガイドによるスタイル指導後のスタイル化された動作を示しています。

比較

SMooDi手法と基準手法との間で、コンテンツテキストによって駆動されるスタイル化された動作生成についての比較を行いました。ここでは、100STYLEデータセット(スタイル提供)とHumanML3Dデータセット(コンテンツ提供)を使用しています。

以下に、SMooDi手法と基準手法との間で2つのスタイル化された動作生成タスクにおける定性的な比較を示します。