『State of AI Report 2024』（1） - AlphaGeometry、合成データ、RAG

レポートには多くの詳細が記載されていますが、私は主に以前聞いたことがなかったり、あまり詳しく知らないテーマに焦点を当ててみました。今日はまず3つ翻訳します：

AlphaGeometry

では、推理能力の不足と訓練データの欠如により制限されることが多いです。しかし、AlphaGeometryはシンボリックな導出エンジンを導入し、この欠点を効果的に補っています。

グーグルのDeepMindとニューヨーク大学（NYU）のチームは、シンボリックエンジンを使用して何百万もの合成定理や証明を生成し、これらのデータを使ってゼロから言語モデルを訓練しました。

国際数学オリンピックの金メダリストに匹敵する成績です。他のAIの最高成績は10問でした。

さらに、AlphaGeometryは優れた汎化能力を示しました。例えば、2004年の国際数学オリンピックの問題において、ある詳細が証明に必要ではないことを発見しました。

合成データ（Synthetic Data）

以前に HAI レポートを共有する際に、合成データに関する議論に触れました：

支持者

現在、合成データはますます広範囲に採用されています。

昨年のレポートでは、合成データに対して異なる意見がありました。一部の人々はそれが非常に有用だと考えていた一方で、他の人々は累積的な誤りが原因でモデルが崩壊する可能性を懸念していました。現時点では、その見解が徐々に変わりつつあります：

合成データは、Phiシリーズモデルの主要なトレーニングデータの出所不僅であり、AnthropicはClaude 3をトレーニングする際にも合成データを使用し、トレーニングデータで欠けている可能性のあるシーンを補いました。
Hugging Faceは、Mixtral-8x7B Instructを使用して3000万以上のファイルと2500億の合成テキスト（教科書、ブログ記事、物語を含む）を生成し、これによりPhi-1.5のトレーニングデータセットを再作成しました。彼らはこれを
シリーズモデルを発表しました。これは、合成データの生成に特化した一連のモデルであり、緩和された使用許可が提供されています。また、MetaのLlamaも合成データの生成に使用できます。
さらに、アライメントされたLLMから直接高品質の指示データを抽出して合成データを作成することもでき、Magpieなどの技術で最適化することができます。この方法でファインチューニングされたモデルは、時としてLlama-3-8B-Instructの性能に匹敵することがあります。

反対者

モデルの開発者たちが迅速に進める一方で、研究者たちは合成データがモデルの崩壊を引き起こす臨界点があるかどうか、そしてどのような緩和策が効果的かを評価しています。

で発表した論文では、モデルの崩壊はさまざまなAIアーキテクチャで発生し得ること、特にファインチューニングされた言語モデルでも同様であることが指摘されています。これは、事前学習や定期的に少量の実際のデータに接触することでモデルの劣化（パープレキシティスコアで測定）を防げるという考えに挑戦するものです。

」という理由で、モデルの品質を維持するために多様で人間生成のデータへの継続的なアクセスがますます重要になるからです。しかし、これらの結果は主に、実データが世代ごとに合成データによって置き換えられるシナリオに焦点を当てています。現実には、実データと合成データは通常同時に蓄積されます。

他の研究では、合成データの割合が過度に高くならない限り、通常はモデルの崩壊を回避できることが示されています。

RAG

検索（retrieval）や埋め込み（embeddings）自体は新しい概念ではありませんが、RAG（Retrieval-Augmented Generation）の台頭により、それらに対する関心が高まり、埋め込みモデルの質向上が促進されました。

一般的な大規模言語モデル（LLM）の成功パターンに従い、スケールは大きな性能向上をもたらしました（例えば、GritLM は約 470 億のパラメータを持ち、これに対し以前の埋め込みモデルは通常 1.1 億のパラメータしかありませんでした）。

は視覚言語埋め込みモデルであり、テキスト埋め込みだけでなく、ドキュメントの視覚的構造も利用して検索を改善します。

がトップに立っています。

文脈がパフォーマンスの主要な駆動要因です

伝統的なRAGソリューションは、通常、スライディングウィンドウ（前の部分と128トークン重複）を使用して、256トークンごとにテキストの断片を生成します。この方法は検索効率を向上させますが、正確性が大幅に低下します。

（5.7%から3.7%に減少）、さらにAnthropicのプロンプトキャッシュ技術によって拡張可能です。

の影響（リコール率で測定）。

RAG の評価問題はまだ解決されていません

多くの一般的に使用されている RAG ベンチマークは、実際には再利用された検索や質問応答データセットであり、引用の正確性、各テキストセグメントが全体的な答えに対して持つ重要性、または情報の矛盾を処理する影響を効果的に評価できません。

は、大規模な複雑な多次元問題のセットを提供しており、これらの問題は実際のユーザークエリから来ています。これらを解決するには深い研究と分析が必要です。