『2024年 人工知能インデックスレポート』- 2.11 LLM の特性

エマージェントな行動 - 実は存在しない

報告書の第2.11章では、「エマージェントな行動」(Emergent Behavior)について議論されています。多くの研究論文によると、大規模言語モデル(LLMs)はエマージェントな能力を示すことがあり、スケールが拡大するにつれて予測不可能な新しい能力が現れる可能性があります。これにより、より大きなモデルが驚くべき新能力を開発し、場合によっては制御不能な能力を持つのではないかという懸念が生じています。

しかし、スタンフォード大学の研究はこの見解に異議を唱え、新たな能力の出現はむしろ評価基準の反映であり、モデル自体の固有の特性ではないと指摘しています(以前、李飛飛教授の共有で聞いた内容でも、これは大規模モデルのエマージェントな行動によるものではなく、私たちの測定能力が追いついていないという意見がありました)。研究者たちは、非線形または不連続な評価尺度(例:複数選択スコア)を使用すると、モデルのエマージェントな能力がより顕著に見えることを発見しました。一方で、線形または連続的な尺度を使用すると、これらの能力の多くが消失します。BIG-benchという包括的なLLM評価ツールのシリーズベンチマークを分析した結果、39のベンチマークの中でエマージェントな能力を示したのはわずか5つでした。

これらの発見は、AIセキュリティおよびアライメント(alignment)研究において重要な意味を持ちます。なぜなら、それらはAIモデルが拡張される過程で必ずしも新しい予測不可能な行動を学習するわけではないという一般的な信念に挑戦しているからです。

パフォーマンスの変化 - ますます愚かになる

GPT-4、Claude 2、Geminiなどの公開されているクローズドソースの大規模言語モデルは、新しいデータやユーザーのフィードバックに基づいて頻繁に開発者によって更新されます。しかし、これらのモデルのパフォーマンスがアップデート後にどのように変化するか(もし変化がある場合)についての研究はまだ少ないです。

スタンフォード大学とバークレー大学による研究では、特定の公開されているLLMの時間経過によるパフォーマンスの変化を調査し、実際にはそれらのパフォーマンスが大幅に変動することが明らかになりました。具体的には、この研究は2023年3月版と6月版のGPT-3.5およびGPT-4を比較し、複数のタスクにおいてパフォーマンスが低下している(いわば「愚かくなった」)ことが示されました。例えば、3月版と比較して、6月版のGPT-4ではコード生成で42ポイント、敏感な質問への回答で16ポイント、特定の数学問題で33ポイントのパフォーマンスが低下しました。

研究者たちはさらに、GPT-4の指示に従う能力が時間とともに弱まっていることを発見しました。これは、より広範なパフォーマンスの低下を説明する可能性があります。この研究は、LLMのパフォーマンスが時間とともに変化する可能性があり、一般ユーザーがその変化に注意すべきであることを示唆しています。

自己修正 - 不可能に近い

一般的に、GPT-4のような大規模言語モデルには推論上の制限があり、誤った幻覚情報を生成することがあると考えられています。この問題に対する一つの解決策として、LLMsが自身の推論の欠陥を認識し、それを修正する「自己修正」が挙げられます。AIが社会の中で果たす役割が増える中で、外部の指導なしに推理の誤りを自主的に修正できるという「内在的な自己修正」の概念は特に魅力的です。しかし、LLMsが本当にこのような自己修正機能を持っているかどうかはまだ明らかではありません。

ディープマインドとイリノイ大学アーバナ・シャンペーン校の研究者たちは、GPT-4の3つの推論ベンチマークテストにおけるパフォーマンスを評価しました:GSM8K(小学校数学)、CommonSenseQA(常識的推論)、HotpotQA(複数文書推論)。彼らは、モデルが自己修正を行うかどうかを独自に決定した場合、すべてのテストベンチマークでのパフォーマンスが低下することを発見しました。

この研究は、まるでセーフティネットなしで高空ロープを歩くLLMsのパフォーマンスを観察しているかのようでした。結果は、外部からのガイドやサポートがないと、これらのモデルは自らの経路を修正するのが難しく、むしろさらに誤差を広げる可能性があることを示しました。これらの知見は、AIの開発と応用において新たな課題を提起しており、AI技術の設計および実装において、より多くの外部チェックやバランスメカニズムが必要であることを示唆しています。

オープンソース vs クローズドソース - クローズドソースが完全勝利

オープンソースモデルとクローズドソースモデルの間には顕著な性能差があります。一連のベンチマークテストにおいて、トップクラスのクローズドソースモデルとオープンソースモデルの性能を比較しました。選定されたすべてのベンチマークにおいて、クローズドソースモデルがオープンソースモデルを上回っています。

具体的には、10の選定されたベンチマークにおいて、クローズドソースモデルの中位数の性能優位性は24.2%であり、GSM8Kなどの数学タスクでは4.0%からAgentBenchなどのエージェントタスクでは317.7%まで差が見られました。