新しい研究論文で、MetaとUSCの科学者たちは、単一モデルが離散モダリティと連続モダリティをシームレスに処理できる新しい技術「Transfusion」を紹介しました。
Transfusionは、量子化を必要とせず、独立したモジュールを使用することなく、離散および連続モダリティを同時に処理可能な単一モデルを訓練する方法です。Transfusionの基本的なアイデアは、単一モデルを訓練する際に、テキストの言語モデリングと画像の拡散モデリングという2つの目標を設定することです。Transfusionはこれらの2つの目標を組み合わせて、テキストと画像を処理し生成可能なTransformerモデルを訓練します。訓練中、モデルはテキストデータと画像データの両方を受け取り、言語モデリングと拡散モデリングの損失関数が同時にモデルに適用されます。
Diffusion models and next-token-prediction autoregressive models represent the best worlds for generating continuous and discrete data respectively, This inspired us to develop a new multi-modal method that combines the best of both worlds in a natural and simple way.
-- Chunting Zhou, Co-author
技術
MetaのTransfusionは、テキストと画像を処理するために単一のTransformerアーキテクチャを使用します。
Transfusionは、ピクセルレベルでの拡散処理ではなく、変分自己符号化器(VAE)を使用して画像を8×8の小領域に分解します。
注意機構に関しては、Transfusionはテキストトークンに対して因果注意を適用し、将来のトークンからの情報漏れを防ぎます。一方で、画像パッチには順序性がないため双方向注意が使用されます。
画像生成の例
研究者たちは画像生成について個別の実験を行い、Transfusionを他の画像生成モデルと比較しました。その結果、TransfusionはDALL-E 2やStable Diffusion XLなどの他の人気のあるモデルよりも優れた性能を発揮し、同時にテキストも生成できることを示しました。