ビジョントランスフォーマー (ViT)

の違いについてです。今日は知ったのですが、最新のSoraのようなビデオ生成技術は主にビジョントランスフォーマーを使用しています。私もよく理解していないので、説明が間違っているかもしれませんが、主に自分自身の学習のためにです。

ビジョントランスフォーマー (Vision Transformer, ViT) 概要

これは、画像分類用のモデルであり、Transformerに似たアーキテクチャを用いて画像パッチを処理します。ViTは、アレクセイ・ドソヴィツキーや他の研究者が2020年に発表した論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」で初めて大規模な画像認識タスクに成功し、優れた性能を発揮しました。これにより、視覚表現学習や現代コンピュータビジョンの発展が促進されました。

コアコンセプト

  • 画像を固定サイズ(例:16x16ピクセル)の非重複ブロックに分割し、各ブロックを平坦化して線形埋め込みを行います。
  • 並べ替え順序に敏感でないTransformer自体では空間情報を保持するために、位置エンコーディングを追加します。
  • 埋め込み後の画像パッチのシーケンスを標準的なトランスフォーマーエンコーダーに入力して処理します。
  • 全画像情報の集約を行う分類タスク用に、学習可能な[CLS]トークンを追加します。

研究の貢献

  •  Convolutional Neural Networks(CNN)に頼らず、純粋なTransformerアーキテクチャが画像分類タスクにおいても優れたパフォーマンスを発揮できることを証明しました。
  •  ImageNet-21kなどの大規模データセットでの事前学習後、ViTはImageNet、CIFAR-100、VTABなどの中小規模の画像認識ベンチマークで良好な転移性能を示し、必要な計算リソースも大幅に減少しています。

ViTのアーキテクチャ詳細

1. 画像処理プロセス

  • 入力画像を固定サイズの非重複ブロック(例:16x16ピクセル)に分割します。
  • 各ブロックを平坦化し、線形層を通じてベクトルとして埋め込みます。
  • 各ブロックの埋め込みに絶対位置エンコードを追加して、空間情報を保持します。
  • すべてのブロックの埋め込みシーケンスを標準のTransformerエンコーダーに入力します。

2. 分類メカニズム

  • 入力シーケンスに特別な[CLS]マークを追加し、Transformerエンコーダーで処理された後、そのマークの出力ベクトルが分類タスクに使用されます。

対比分析

a. アーキテクチャとデザイン

特性ビジュアルトランスフォーマー(ViT)自己回帰トランスフォーマー(AR)拡散トランスフォーマー(DiT)
データ処理画像をブロックの系列として扱うシーケンスデータ(テキスト、画像)を処理するノイズの摂動と除噪によるデータモデリング
位置エンコーディング空間情報にとって非常に重要シーケンスの順序を維持するために非常に重要拡散プロセス中に構造を維持するために使用される
モデルのコンポーネントブロック埋め込み、Transformerエンコーダーマスク付き自己注意、Transformerデコーダー拡散ステップにおけるTransformer層
生成能力限定的(主に判別タスクに使用)強力な生成能力高忠実度を持つ強力な生成能力

b. 適用分野

応用分野ViT自己回帰トランスフォーマー(AR)拡散トランスフォーマー(DiT)
画像分類主要な用途あまり見られず、画像シーケンス上で実現可能かもしれない通常、分類タスクには使用されない
画像生成限定的であり、修正が必要画像をシーケンスと見なす際に有効効率的であり、最先端の品質を備えています
自然言語処理直接的には適用されませんコアアプリケーション(GPTモデルなど)制限が多く、マルチモーダルモデルに統合しない限りは
その他の分野目標検出、セグメンテーション音楽生成、コード生成など音声合成、ビデオ生成など

c. メリットと利点

方面ViT自己回帰トランスフォーマー(AR)拡散トランスフォーマー(DiT)
性能視覚タスクでCNNと競争する生成タスクにおいて優れたパフォーマンスを発揮します高忠実度の生成においてリードする地位にあります
拡張性データとモデルの規模が増加するにつれて良好に拡張可能です大規模なデータセットから恩恵を受け、非常に拡張性が高いです拡張可能だが、マルチステップの拡散プロセスにより計算負荷が大きい
柔軟性主に視覚タスクに使用され、一部のタスクに適応可能複数分野にわたる多功能性主に生成タスクに使用され、条件付けによって適応可能
解釈可能性ブロックベースの方法は一定程度の解釈可能性を提供するシーケンスの特性は生成プロセスの理解に役立つ拡散プロセスが比較的複雑であるため、解釈が難しい

d. 制約条件と課題

方面ViT自己回帰トランスフォーマー(AR)拡散トランスフォーマー(DiT)
データ効率多くのデータが必要であることが良好なパフォーマンスを発揮するための条件となる大量のデータが必要になる可能性があり、特に長いシーケンスに対してはデータと計算リソースが極めて必要とされる
計算コストTransformer層により、特に高解像度の画像では計算コストが高い自己注意機構(セルフアテンション)により、長いシーケンスでは計算コストが高い反復的なデノイジングステップにより、計算コストが非常に高くなる
訓練の複雑性事前学習がない場合、頭から訓練するのは挑戦的かもしれないシーケンスの長さとマスクを慎重に扱う必要がある拡散とTransformerの二重プロセスにより、訓練が複雑になる
生成品質専用の生成モデルと比較して限界がある十分に訓練されていない場合、高忠実度の生成が困難になる可能性がある不適切な訓練によりアーティファクトが発生する可能性があるが、通常は品質が高い