事前学習(プレトレーニング)とSFT(スーパーバイズドファインチューニング)は、LLMの訓練分野においてすでに長年にわたり広く使用されています。しかし、RL(強化学習)訓練の導入は、現在この分野における比較的新しい試みであり、まだ完全に標準化されていません。
この段階の基本的な概念は非常に単純で、試行錯誤によるモデルの最適化を目的としていますが、その詳細や数学的原理は非常に複雑です。これには、最適な解決策の選択方法、訓練量の管理、プロンプトの分布設計、そして訓練実行の構成方法などが含まれます。
最近、DeepSeekは重要な論文を発表しました。これは、初めて強化学習によるファインチューニングの作業を公開したもので、LLMにより強力な推論能力を提供します。この公開により、DeepSeekは業界に強化学習のLLMへの応用に関する関心を喚起すると同時に、他の研究者がこの手法を再現し、さらに探求できるための必要な詳細情報を提供しました。

言語モデルにおける強化学習の応用:認知戦略の突破
DeepSeek-R1の論文では、強化学習(RL)を言語モデルに適用した際の効果が示されました。特に数学問題の解決において顕著です。訓練初期のモデルは基礎的な数学問題の解決において不十分でしたが、RLプロセスにおける数千ステップの最適化を通じて、その精度が大幅に向上しました。注目に値するのは、定量的な精度向上だけでなく、問題解決時のアプローチにおける質的な変化が見られたことです。

モデルの最適化に伴い、顕著な現象が観察されました:モデルがより長い回答を生成し始めました。この応答の長さの増加は、モデルがより詳細な解決策が精度を向上させることを学んだことに起因します。それは「再評価」のステップを行い、自分の思考を遡り、異なる視点から問題を見直すことを学びました。例えば、モデルはこう言うかもしれません:「待って、正しい答えを確認するためにもう一度段階的にチェックしよう」と。

このプロセスは、人間が問題を解決する際の行動と非常に似ています:思考を遡る、異なるアプローチを試み、徐々に解答を改善する。強化学習(RL)を通じて、これらの認知戦略が自然に現れます。さらに興味深いのは、この問題解決の戦略はモデルにハードコーディングされたものではなく、RL 最適化プロセスにおける試行錯誤と学習を通じて徐々に発見されたものです。モデルが得た唯一の外部指導は、正しい答えだけでした。
最も驚くべき点は、モデルが思考を学び、人間に類似した認知戦略を開発したことです。そして、これらは明示的なプログラミングによって実現されたのではなく、強化学習の最適化プロセスの中で自発的に現れたものです。これは、問題を「操作」し、異なる角度から理解したり、アナロジーを使って問題を解決するための認知戦略です。「チェーン・オブ・サンク」というこの発見は、RL 最適化プロセスの直接的な結果であり、この手法の強力さと自発性を示しています。
Emily buys 3 apples and 2 oranges. Each orange costs 2 Dollars. The total cost of all the fruit is 13 Dollars. What is the cost of apples?
ChatGPT 4o ではこのような回答が得られます。ここに示されているのは、以前に基本的な SFT(教師付き微調整)方法を使用した際に得られた結果で、まるで専門家の解決策を模倣しているかのようです。

同じ問題を推論や思考に特化したモデルに与えた場合、以下のような出力が得られます。これが強化学習(RL)モデルから得られる結果です。

このプロセスを読んでいると、このモデルが考えているように感じられ、明らかに解決策を探していることがわかります。モデルは答えが3ドルだと推測し、「ちょっと待って、数学をもう一度確認してみよう」と言います。そして、少し異なるアプローチで再試行し、「大丈夫、すべて正しいようだ。これが答えだと思う、間違いは見当たらない。他の方法で解いてみようか、式を立てることもできるかもしれない」と続けます。例えば、「リンゴの価格が8ドルだと仮定してみよう、そう...ああ、答えは同じだ。だから、各リンゴは確かに3ドルだ、よし、これで正しいという確信がある」という具合です。

その後、モデルは思考プロセスを終え、人間に向けて美しい解答を書きます。したがって、これはただ正しさに関するだけでなく、表示の仕方にも関係しています。モデルは解答を非常に明確に書き出し、正しい答えを下部に囲んで示します。

信じられないことですが、私たちはモデルのこの思考プロセスを見ることができます。それは強化学習プロセスを通じて得られたものです。これが、トークン列の長さを増やすことで、モデルが考える時間を確保し、異なる方法を試す理由です。

これが問題を解く際の精度向上につながる理由でもあります。ここではまさに「アハ!」の瞬間や、さまざまな戦略、そして正しい答えを得るためにどうするかについてのアイデアが見られます。
ChatGPTには、o1やo3-mini、o3-mini-highなどがあり、これらは高度な推論技術を使用しています。「高度な推論を使用する」とは、強化学習によって訓練されていることを意味します。GPT-4やGPT-4o miniのようなモデルは、無料版で提供されるものは主にSFTモデル(教師付き微調整モデル)とみなすべきであり、RLモデルのように実際に「考える」わけではありません。これらのモデルには一部強化学習が含まれていますが、大部分は依然としてSFTモデルです。

バックエンドではモデルがこれらの思考チェーンを生成しているものの、OpenAI はウェブインターフェース上にその詳細を表示せず、代わりに思考チェーンの要約を表示しています。OpenAI がこうする理由の一部は、「ディスティレーションリスク」、つまり誰かがこれらの推論プロセスを模倣し、単にそれをコピーすることで推論性能を再現しようとする可能性への懸念があるためです。そのため、彼らは詳細を隠して要約のみを表示しており、DeepSeek のような完全な推論プロセスは得られません。

その後、モデルは解決策を書き出します。したがって、これらのモデルは私たちがバックエンドの詳細を見ることができなくても、全体的にほぼ同等のパフォーマンスを発揮します。

高度な推理が必要な問題がある場合、いくつかの「思考モデル」を使用することをお勧めします。多くの簡単な問題、例えば知識ベースの質問やそれに類するものでは、事実的な質問に対して30秒も考える必要はありませんので、思考モデルを使うのはオーバーです。そのため、80%~90%の使用ケースでは GPT-4 を使うだけでよく、数学やプログラミングなどより難しい問題の場合には思考モデルを選択できますが、それらは考えている時間がかかるため待ち時間が長くなります。
Google AI Studio 内の Gemini 2.0 Flash Thinking Experimental も試すことができます。これは Google の初期の実験的思考モデルです。ここで同じ質問を入力し、実行をクリックすることができます。これも一種の思考モデルで、結果として正しい答えが出ます。基本的に、Gemini も思考モデルを提供しており、Anthropic は現在これを提供していませんが、これが現在の LLM の最先端の進化です。

強化学習(RL)は、新しい興奮する段階のように見えますが、詳細を正確にするのは非常に困難です。それがこれらのモデルと思考モデルがまだ実験段階にある理由であり、2025 年初頭までにこれらは依然として非常に初期の段階にあります。しかし、これが非常に難しい問題の性能を向上させる最前線の分野であり、これらの最適化の中で浮上する推論を利用しています。