『2024年人工知能指数レポート』- 1.1 モデルのデータ枯渇リスク

この章は私の以前の認識と少し異なっています。

》というタイトルで、低バージョンのGPTモデルを使って高バージョンのモデルを訓練する戦略について議論しました。

報告書の「モデルがデータ不足に陥るかどうか」のセクションでは、低品質または高品質の言語データ、さらには画期的なデータであっても、ますます巨大化するモデルの訓練を支えるのに最終的に不十分であることが指摘されました。

この課題に対応するために、多くの研究者は1つの大規模言語モデル（LLM）を別のLLMの訓練に使用し、合成データを用いて実際のデータを補完する方法を採用しました。しかし、研究によると、この方法には明らかな欠点があります：モデルは実際の基礎データ分布に対する記憶能力を失い、範囲が狭い出力を生成し始める可能性があるのです。

以下の図は、主に合成データで訓練されたモデルが世代を増すごとに、多様性が次第に低下し、分布も広がらない傾向を示しています。

さらに、ある研究では比較が行われました：

完全に合成（fully synthetic）：モデルは完全に合成データを使用して訓練されます。
）：モデルは合成データと実データの混合を使用して訓練されます。

どちらの場合も、訓練エポック数が増加するにつれて、生成される画像の品質が低下することが観察されました。

しかし、合成データによる強化を用いたループ（一部の実データを含む）では、品質の劣化が少ないものの、両方の手法においてさらなる訓練による利益は減少していることが示されました。