今年の初めに発表された研究論文「Contextual feature extraction hierarchies converge in large language models and the brain」は、約1年間の学術審査を経て、今年11月に国際トップジャーナル『Nature』の姉妹誌に成功裏に掲載されました。
神経外科患者が音声を聞く際の脳内電気生理記録(intracranial electroencephalography, iEEG)を利用して、LLMと人間の脳における言語処理メカニズムの対応関係について詳細に検討しました。
研究のポイント
LLMがベンチマークタスクでのパフォーマンスを段階的に向上させるにつれ、単に「類脳的」になるだけでなく、神経反応をより正確に予測可能となり、人間の脳における階層的な特徴抽出パスとの一致度も高まります。これにより、同じエンコードタスクにおいてより少ない階層で効率的な処理を実現しています。
高性能なLLMは共通の階層的な言語処理戦略を示しており、機能的に類似した言語処理メカニズムに近づいている傾向が明らかになりました。
LLMの性能や人間の脳との一致度においても、文脈情報の役割は極めて重要です。この発見は、文脈処理が言語理解における中心的な位置を占めていることを強調しています。
実験手法
における平均的な神経応答を抽出し、これを各電極の単語応答としています。
の中から特徴を抽出し、モデルの単語表現として使用します。
を生成し、LLM表現と神経反応の対応度を量化します。
研究結果
1. 大脳関連性とLLM性能の一貫性(A図)
すべての電極の大脳関連性の平均値は、LLMの性能がその神経とのアライメントの程度と高度に一致していることを示しています。図からわかるように、性能の低いモデル(青色/紫色)は平均的な関連性が低く、性能の高いモデル(黄色)はより高い関連性を持っています。影付きの領域は電極間の標準誤差を表しており、一貫した傾向を示しています。
2. ピーク関連性とLLM性能(B図)
各モデルのピーク相関は、すべての階層で各電極ごとの最高の相関スコアに基づいて計算され、その後、すべての電極で平均化されます。 結果は、平均ピーク相関とLLMの性能の間に有意な正の相関があることを示しています(ピアソン r = 0.92, p = 2.24 × 10⁻⁵)。 :結果の有意水準は星印で表されます(
3. ピーク相関層の分布と距離の関係(C図)
研究では、電極と後部帯状回(pmHG)との距離に基づき、局所的に平滑化されたピーク階層分布を計算しました。 結果は、ピーク階層が電極とpmHGの距離の増加に伴い段階的に上昇することを示しています。性能の良いモデル(黄色)はモデルの下位層に近い位置でピークに達し、性能の低いモデル(青色/紫色)と比較して分布がより低い位置にあります。
4. 平均ピーク階層とモデル性能(D図)
各モデルのすべての電極における平均的なピーク層を分析した結果、LLMの性能と著しく負の相関があることが判明しました(ピアソン相関係数 r = −0.81, p = 0.0013)。 これは、より高性能なモデルほど低い層(入力に近い層)で最大の大脳関連性に達することが示唆されています。
主要な知見
研究結果は、大規模言語モデルの性能が言語タスクでの表現のみならず、人間の脳における言語処理メカニズムとの一致度を直接的に決定することを示しています。
より優れたモデルは低い階層で脳関連性のピークに達し、これは高性能なLLMがより効率的な特徴抽出能力と人間の脳に近い階層的な処理メカニズムを持っていることを示唆しています。
コンテキスト情報の重要性:大規模言語モデルと脳の対応における新しい視点
コンテキストウィンドウの長さとその内容がモデルのパフォーマンスおよびニューラルアライメントにどのように影響するかを明らかにしました。
1. コンテキストウィンドウが階層的アライメントに与える影響(A図)
の影響。 ∗ は、 ∗∗ は、 ∗∗∗ は、 結果は、 図中の各点は相関結果を表しており、95%信頼区間は誤差線で示され、有意水準は星印(∗, ∗∗, ∗∗∗)で表示されています:
2. 文脈内容とモデル性能の関係(B図)
モデル表現への文脈内容の影響とその基準評価性能の間に有意な正の相関があります(スピアマン相関 r = 0.66, その特徴表現能力を強化します。
3. コンテキスト内容と脳の類似性の関係(C図)
モデルのコンテキスト内容と平均ピーク脳類似性の間にも、有意な正の相関が存在した(Spearman r = 0.84, 図における水平の誤差線は、電極間の平均的な脳類似性の標準誤差を示しており、これによりコンテキスト処理が脳のアラインメントにおいて核心的な役割を果たすことがさらに強調されています。
4. 脳領域におけるコンテキスト効果の分布(D、E図)
FreeSurferプラットフォームで描かれた脳地図では、電極がピーク脳類似性へのコンテキストの影響に基づいて色付けされており、異なる脳領域におけるコンテキスト効果の分布が示されています。
4つの主要な言語関連脳領域におけるコンテキスト効果の違いを分析し、各領域の平均コンテキスト効果値を棒グラフで表示します:
各棒の色は脳地図のカラースキームと一致しており、誤差線は標準誤差を表しています。 :Wilcoxon順位和検定を用いて領域間の差を分析し、有意性レベルは星印で示されます(∗, ∗∗, ∗∗∗)。
意味
これにより、文脈情報が言語理解および処理における中心的な役割を果たしていることが明らかにされました。
高性能なLLMは文脈情報をより効果的に活用でき、タスクのパフォーマンスを向上させるだけでなく、人間の脳の認知メカニズムにもより近づけます。これは将来のモデル向上において重要な示唆を与えています。
異なる脳領域が文脈情報に対して異なる反応を示すことは、言語処理の階層性と領域機能の協調作用を示しています。