TurboEditは、テキストベースの画像編集に3〜4ステップの拡散モデルを使用します。

今日は面白いプロジェクトを見ました:TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models。これで母親もPhotoshopが買えない心配をしなくて済みます。

現在、コードはまだオープンソース化されていませんが、まずはデモを使用して体験しました。

元の説明:

変更後:

元の説明:

変更後:

元の説明:

変更後:

さらに多くの効果

技術的な詳細

TurboEditは、「簡単に編集できる」DDPMノイズ逆転法という人気のあるテキストベース編集フレームワークを使用しています。彼らはこの方法を高速サンプリングでの応用について分析し、その失敗を視覚的アーティファクトの発生と編集強度の不足に帰結させました。研究チームは、これらのアーティファクト問題を逆転されたノイズと予想されるノイズスケジュール間の不一致なノイズ統計データに起因すると考え、この偏差を修正するための調整後のノイズスケジュールを提案しました。編集強度を向上させるために、彼らは新しいアーティファクトを導入することなく、編集効果を効果的に強化する偽ガイド法も提案しました。

視覚的アーティファクトの解決

研究チームは、「簡単に編集できる」方法に基づいて観察したところ、逆転後のノイズマップのノイズ統計データが各ステップで期待値から著しく逸脱していることがわかりました。多段階拡散モデルでは、これらの統計データは通常拡散プロセスの後期に収束し、モデルが拡散プロセス中に導入されたすべてのアーティファクトに対処できます。しかし、SDXL-Turboではこれらのステップが完全にスキップされるため、アーティファクトが残存します。チームは、これらの不一致な統計データが大まかに時間シフト現象を示しており、ノイズ統計は約200ステップ早く期待値と一致することを発見しました。そのため、スケジューラーとモデルに同じく200ステップ先の時間ステップパラメータを提供することで、このドメイン間ギャップを除去し、アーティファクト問題を成功裏に解決しました。

図のように、SDXL-Turboを使用すると、「簡単に編集できる」逆転によりノイズ統計データ(赤)が期待値(緑)と一致しないことがあります。研究チームは、これらのノイズ統計データ(青および紫)を再アラインメントするために単純な時間シフト法を提案し、これによりアーティファクトの生成が大幅に減少しました。

偽ガイド法

研究チームは「簡単に編集できる」方程式を解析し、この方程式が二つの部分に分解できることを証明しました。一つはプロンプトの強度を制御し、もう一つは元画像を新しい軌跡に移動します。研究チームは、プロンプト項にのみCFG類似のリスケールを適用することを提案しました。結果として、この方法は編集強度を向上させることができ、新たなアーティファクトを導入することはありませんでした。詳細情報は論文をご覧ください。

図のように、クロスプロンプト項 (wₚ, 列) とクロストラジェクトリー項 (wₜ, 行) を調整する際、研究チームはクロスプロンプト項のみをスケーリングすることで編集効果を向上させ、アーティファクトを生成せずに済むことを発見しました。

Edit-FriendlyとDelta Denoising Scoreの同等性

研究チームの「簡単に編集できる」DDPMプロセスに関する研究によると、その形式はDelta Denoising Scoreで使用される補正手法と非常に似ています。驚くべきことに、チームは適切な学習率と時間ステップサンプリングを選択すれば、これらの二つの手法が機能的には同等であり、完全に同じ結果を生成できることを証明しました。この発見は最近のポスタリアディステューションサンプリング (PDS) メソッドにも拡張でき、特に画像編集における応用においてです。

比較

既存の多段階方法との比較

私たちは自身の4ステップ編集結果を既存の多段階モード下での最先端編集手法と比較しました。私たちの手法は、最先端の手法に匹敵またはそれを上回る画像品質を実現するだけでなく、速度において顕著な利点があります。最も速いベースライン手法と比較して6倍の速度向上、さらには最高得点の手法と比較しても630倍の速度向上を達成しました。

既存の少段階方法との比較

さらに、私たちの手法を他の少段階編集手法とも比較しました。結果として、私たちの手法は元画像の内容を維持しながら、編集の意味的な意図によりよく適合することがわかりました。さらに、基線「簡単に編集できる」手法で発生する視覚的アーティファクト問題を成功裏に回避しました。