『2024年 人工知能インデックスレポート』- 2.10 強化学習

レポートの2.10章では、3つの強化学習手法について議論しています:RLHF、RLAIFおよびDPO。

RLHF

RLHF(強化学習と人間からのフィードバック)は広く知られた強化学習技術で、機械学習モデルの出力と人間が提供するフィードバックを組み合わせてモデルのパフォーマンスを最適化します。GPT-4、Llama2、Claude 2、Geminiなどの多くの有名なモデルに広く応用されていますが、すべてのモデルがRLHFを使用しているわけではありません。例えば、Mistral 7Bはこの手法を使っていません。

DPO

DPO(Direct Policy Optimization)については、以前の記事で詳しく議論しましたので、以前の内容をご参照ください。

RLAIF

今日は、RLAIF——強化学習とAIフィードバックについて重点的に紹介します。これは比較的新しい手法で、人間のフィードバックに完全には依存せず、AI自身が生成するフィードバックを利用してモデルを訓練し、最適化します。この方法はデータ品質を維持しながら、大規模な人手によるラベリングへの依存を低減し、学習効率を向上させます。


詳細はこちらをご覧ください:

長年にわたり、RLHF(強化学習と人間からのフィードバック)はAIモデルの調整における黄金標準と考えられてきましたが、大量の人間によるフィードバックデータに依存しており、これが時間と労力の面でしばしば制約要因となっています。その代替として、Google Researchの最近の研究では、大型言語モデルの好みを活用した強化学習手法——RLAIF(強化学習とAIフィードバック)が提案され、他のAIモデルを人間の好みに適合させる方向性が示されています。

RLAIF vs. RLHF:どちらがより効率的か?

研究では、RLAIFとRLHFを要約タスクや支援タスクにおいて比較し、両者とも教師付き微調整(SFT)よりも好まれることがわかりました。統計的には、RLHFとRLAIFの優位性に顕著な差はありませんでした(下図参照)。

特に注目に値するのは、最少の有害な出力を生成することを目指す無害な対話生成タスクにおいて、RLAIFの有効性(88%)がRLHF(76%)を上回ったことです(下図参照)。これにより、RLAIFが資源をより効率的に使用し、コストパフォーマンスの高いAIモデル調整手法である可能性が示唆されます。