Claude2の支援を受けながら、OpenAIの論文「弱から強への汎化:弱い教師データで強い能力を引き出す」(WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION)を読みました。リンクはこちらです:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
この論文は、人工超知能(ASI)の発展を理解する上で重要な視点を提供します。「弱から強への学習」という概念、つまり弱いAIモデルがより強力なモデルを監督することについて述べています。例えば、私たち人類が将来自分たちよりも知能の高い存在を訓練できるかどうかについても言及しています。
論文中では、GPT-4に対してGPT-2レベルの教師データを使用して微調整を行うというシンプルな方法が用いられ、これにより汎化能力が大幅に向上し、NLPタスクにおいてGPT-3.5レベルの性能に近づけることが示されています。
主な発見には以下が含まれます:
:弱いモデルのラベルに基づいて訓練された強力なモデルは、弱いモデルの性能を超えるものの、真のラベルを使用して直接訓練された強力なモデルと比較すると依然として差があります。
:補助信頼度損失やガイド付き学習などの手法は、弱から強への汎化を大幅に改善します。たとえば、NLPタスクではこれらの手法によって弱いモデルと強いモデル間の約80%の性能差が回復可能です。
:強力なモデルは、弱い教師データ内の誤りに対して過剰に適合することがあり、さらに大きなモデルほど小さなモデルの弱点を模倣するのが困難になります。
研究者たちは、GPT-4シリーズから事前学習された言語モデルを使用し、NLP、チェス、報酬モデリングのタスクをテストしました。その結果、強力な事前学習モデルが弱いモデルによって生成されたラベル上での単純な微調整でも、常に弱い教師データを上回る性能を示すことがわかりました。この現象は「弱から強への汎化」と呼ばれています。
しかし、この方法だけでは強力なモデルの全ポテンシャルを完全に引き出すことはできません。これは、現在のアライメント技術、例えば人間のフィードバックを使った強化学習(RLHF)などは、超人的なレベルのモデルには適用が難しいことを示唆しています。さらなる改良が行われない限り、人間の監督のみでは高度なASIシステムを訓練するのは不十分である可能性があります。強力なAIモデルは弱から強への汎化能力を示していますが、その完全な能力に比べればまだ大きなギャップが残っています。