GoogleがTransformerアーキテクチャの後継者としてTITANSを発表

まず、上の「Transformerアーキテクチャの後継者」という表現は、x.comで誰かが使っていたものであり、私はTITANSの重要性について判断する能力はありません。ただ学んでいるだけです。

アテンション機構（Attention）は、多くの大規模言語モデル（LLM）の進歩において鍵を握ってきましたが、長いコンテキストへのスケーリングには限界があります。

“The true art of memory is the art of attention!"
— Samuel Johnson, 1787

TITANSは、アテンション機構とメタコンテキスト記憶を組み合わせた新しいアーキテクチャであり、テスト時にどのように記憶するかを学習することができます。Transformerや現代の線形RNNと比較して、TITANSは性能でそれらを超え、2Mを超えるコンテキストウィンドウに効果的にスケールし、GPT-4やLlama3-80Bなどの超大規模モデルよりも優れたパフォーマンスを発揮します。

https://arxiv.org/pdf/2501.00663v1

要約すると、TITANSアーキテクチャの提案は、長コンテキスト問題の解決と記憶能力の向上における革新的な試みです。従来のTransformerアーキテクチャと比較して、TITANSはより広範なコンテキストウィンドウで効率的なパフォーマンスを維持でき、テスト時に動的記憶を行い、その潜在力を示しています。

長期記憶をどう設計するのか？

TITANSチームは、この問題を人類の記憶の観点から考えました。人間の短期記憶は非常に正確ですが、そのウィンドウは限られています（約30秒）。では、より長いコンテキストをどう処理するのでしょうか？TITANSチームは、有用かもしれない情報を保存するために他のタイプの記憶システムを使用しました。

彼らは、注意機構が有限なコンテキストウィンドウと正確な依存関係モデリングを持つため、短期記憶として機能すると考えています。したがって、TITANSには、より長い歴史を覚えることができるニューラルネットワークの記憶モジュールが必要です。これは長期的かつ持続可能な記憶となります。

：記憶システムは情報を保存することを担当しますが、訓練データを覚えることはテスト時に役立たない場合があります。なぜなら、テストデータの分布が訓練データの分布と異なる可能性があるからです。したがって、TITANSチームは記憶モジュールに、テスト時にどのように情報を覚えるか/忘れるかを教える必要があります。

これに対して、TITANSチームは提案しました：過去の履歴を神経ネットワークのパラメータにエンコードし（TTTに類似）、オンラインでメタモデルを訓練して、テスト時にデータをどのように記憶するか/忘れるかを学習させる。

どのトークンを記憶すべきですか？

TITANSチームは再び、人間の記憶の視点からこの問題を考えました。人間の脳は予測を裏切るイベント（つまり驚きのイベント）を優先的に記憶します。しかし、あるイベントが特定の時点で驚きであったとしても、それは常に私たちを驚かせるわけではありません。最初の瞬間が十分に注意を引くことで、全体の時間枠を記憶することができます。

TITANSチームはこのプロセスを模倣して長期記憶を訓練し、トークンの驚きを次のように分類しました：

瞬間的な驚き
（減衰する）過去の驚き

瞬間的な驚きはメモリとトークン間の勾配によって測定され、過去の驚きは過去のトークンの減衰した累積値です。

記憶はどのようにして忘れられるのか？

。興味深いのは、この重み減衰がRNNにおけるデータ依存型ゲートの一般化形として見なすことができ、行列またはベクトル値の記憶を活用する点です。

この設計は並列化可能なのでしょうか？

小規模バッチ勾配降下法の並列化可能な二重公式を拡張し、追加の行列乗算を通じて重み減衰を組み込みました。では、過去の驚きに対する減衰はどう処理されるのでしょうか？TITANSチームは、各小バッチ内で並列スキャンを行うことでこれを計算できると認識しました。

記憶をどのように統合するか？

TITANSチームは、記憶が次の3つのアーキテクチャ変種として使用できる方法を示しました：

コンテキスト
ヘッド
層

入力をセグメントに分割し（これは非常に大きくてもよく、現在のアテンションベースの大規模言語モデルのコンテキストウィンドウに等しくてもよい）、過去のメモリ状態を使用して対応するメモリを抽出し、その後アテンション出力によってメモリを更新します。

TITANSの実験におけるパフォーマンス

TITANSチームは、言語モデリング、常識的推論、"針を探せ"（needle in a haystack）および時系列予測タスクに焦点を当てました。

同等の大規模モデル。

要約

TITANSアーキテクチャは、動的メモリーモジュールとアテンションメカニズムを組み合わせることで、長いコンテキストの問題を解決する方法を示しています。その性能は既存のTransformerやRNNアーキテクチャを大きく上回っており（著者自身の主張）、多様なメモリーメカニズムを通じてさまざまなタスクを処理でき、大規模なコンテキストウィンドウの処理における優位性を示しています。