大規模言語モデルが時間と空間を理解する方法

大言語モデルが時間と空間を理解する仕方は、統計データに基づいているのか、それとも一貫性のある、現実的な世界モデルを形成しているのか?

MITの教授であるWes Gurnee氏とMax Tegmark氏は今月、論文「Language Models Represent Space and Time」を発表しました。この論文では、Llama-2シリーズモデル内の3つの空間データセット(世界、アメリカ、ニューヨーク市内の場所)と3つの時間データセット(歴史上の人物、芸術作品、ニュース見出し)を分析し、大言語モデルが独自の世界モデルを構築しているという結論を出しています。

大言語モデルには個別の「空間ニューロン」と「時間ニューロン」があり、これらは信頼性を持って空間と時間を座標として符号化します。

論文は学術的で、私もあまり理解できません:https://arxiv.org/abs/2310.02207

次の図は、Llama-2-70bが構築した空間と時間の世界モデルです。

この論文では、LLMのエンティティタイプ間には一貫性があり、プロンプトに対してかなり堅牢であり、これらの特性に非常に敏感な単一のニューロンが存在することが示されています。活性化データセットを最も類似したニューロンの重みに投影すると、これらのニューロンはエンティティの実際の空間または時間上の位置に非常に敏感であり、つまりモデル内に存在するこれらのニューロン自体が予測力のある特徴を検出するプローブとなっています。

十分なモデルサイズとデータ量があれば、次のトークン予測だけで世界の文字地図を学習するのに十分です:

  • モデルに線形回帰プローブを追加することで、著者たちはモデルが線形の空間および時間表現を学習できることを見出しました。これらの表現はモデル規模が大きくなるにつれてより正確になり、主にモデルの前半部分の層に位置しています。
  • 非線形プローブの性能は線形プローブよりも優れることはなく、モデルが線形表現を使用していることを示しています。また、これらの表現は比較的安定しており、プロンプトの変化による影響も少ないことがわかりました。

人間の脳と比較すると、位置細胞とグリッド細胞は脳内で最も深く研究されている細胞の一つです。これにより、将来的には人間/AI比較認知科学が発展する可能性があります。以前の比較心理学はチンパンジーや人間の比較を中心に展開されてきましたが、今後の比較心理学は人間の脳とAIの比較になるかもしれません。