OnBoard! ポッドキャストノート - EP 62: OpenAI o1 およびLLM+強化学習の新しいパラダイム（1）

先月のOnBoard! のポッドキャストについて、最近聞きました。技術に疎い「小白」ですが、全く理解できなくてもしっかりとメモを取りました！以下は個人的能力の限界により、メモに欠落や誤りがあるかもしれませんが、参考までにお勧めします。今日は一部を整理しましたが、徐々に進めていきます。

ポッドキャストリンク：https://castbox.fm/episode/id5557944-id743751924

Host：

：ドルベースのVC投資家、元AWSシリコンバレーチーム＋AIスタートアップ社員、微信公式アカウント「M小姐研習録」(ID: MissMStudy)主宰者 | 即刻：モニカ同学
：元バイト（ByteDance）のデータサイエンティスト、現・拾像科技リサーチャー、微信公式アカウント「海外ユニコーン」寄稿者

Guest：

：Google DeepMindでのリサーチエンジニア。彼はスタンフォード大学在学中に強化学習に触れ、ロボットから現在の大規模言語モデルまで、強化学習の理論とその応用の歴史について非常に体系的な理解を持っています。
（スペシャルゲスト）、Google Cloudでのリサーチサイエンティスト、カリフォルニア工科大学で博士号取得。多くの人がo1がモンテカルロ木探索 (MCTS) を大規模言語モデル (LLM) に応用しており、それが論理的推論能力を向上させる重要な方法の一つだと推測しています。エリックはLLMとMCTSを組み合わせた複数の論文を発表しており、この分野の絶対的な専門家です。
元微信AIリサーチャーで、現在は国内トップインターネット企業の大規模モデル部門の責任者を務めています。

【トピック】最近、非常に興味深いプロジェクトや論文を見かけました。

Eric：

論文：言語モデル（LM）とモンテカルロ木探索（MCTS）の組み合わせについて特に計画（planning）を言語モデルの推論プロセス（reasoning）に統合する方法について述べる。

モンテカルロ木探索（MCTS）は古典的な探索アルゴリズムで、Google DeepMindが囲碁AIプロジェクトで適用したことにより広く知られるようになった。

LMの推論タスクにおいて、MCTSは主に以下の2つの側面で使用される：

一つ目は高品質な合成推論データを生成することである；
二つ目は推論実行時に計画を推論ステップに統合することである。

例えば、MCTS（モンテカルロ木探索）を利用して推論パスと報酬機構を最適化し、推論の質を向上させることができます。私はこの2つの方向性に非常に探求価値があると考えています。

私たちのチームも最近、MCTSを使用してプロセス監督（process supervision）付きのデータを生成する方法に関する論文を発表しました。大規模モデルの推論プロセスにおいて、いくつかの推論ステップで誤りが生じることがあります。そして、人間が各推論ステップの正しさや誤りをラベル付けるのは非常に高いリソースが必要です。これを解決するために、MCTSとモンテカルロ推定を組み合わせて、人間の介入を必要とせず、完全にAIによってフィードバックとラベルを生成する方法を設計しました。

さらに推論能力を向上させる際には、多段階推論データ（multistep reasoning data）の導入が特に重要です。これは後期訓練（post-training）、特に強化学習（RL）フェーズにおいて重要な役割を果たします。古典的なRLHF（Reinforcement Learning with Human Feedback）手法のみを使用すると、モデルは通常最終段階での答えの正しさを判断できますが、推論プロセス全体の中でどのステップに問題があるかを識別するのは困難です。しかし、プロセス可視化（process visualization）データを追加することで、モデルは価値関数（value function）をより正確に学習し、各ステップの推論の正しさをより密に判断できるようになり、これにより強化学習のトレーニング効率が大幅に向上します。

MCTSが言語モデルのトレーニングにどのように適用されるか、またo1などのモデルに使用されているかどうかについても、現在議論の中心となっています。

Kimi：

この論文は大概2022年にOpenAIによって発表されました。これは伝統的なスケーリング法則の研究とは異なり、スケーリング法則に関する論文ではありますが、焦点は

チャット形式のインターフェースを通じて、ファイルが全くない状態からプロジェクトを迅速に開始できるというものです。これは現在のCopilotでは実現できない機能です。Cursorを使用して以来、私はVS Codeを完全に削除しました。

簡単に言えば、CursorはVS Codeのフォークに基づいて開発されたIDEであり、これはVS Code自体がオープンソースプロジェクトであるためです。Cursorにはさまざまな大規模モデルが統合されています。例えばClaude 3.5、OpenAIのGPT-4o、そして最新のGPT-o1などです。Copilotと比較すると、Cursorの最大の利点は以下の通りです：Copilotに搭載されているモデルは、マイクロソフトが自社のAIエコシステム（例：OpenAIモデル）を基に微調整した小規模モデルであり、その後GPT-4oも導入されましたが、コストが非常に高いことから、最も強力なモデルを提供し続けることは困難です。一方で、CursorはClaude 3.5などの最優秀な大規模モデルを統合することができます。

で、これを使えばプロジェクトのフレームワークを迅速に生成できます。これは、私のように何年もバックエンド開発をしていない人にとって非常に便利です。例えば、簡単なChrome拡張機能を素早く構築したい場合、Cursorを使えば1〜2時間で完了でき、これは以前ではほとんど不可能だったことです。

の革新的な製品。

Cursor について以前に紹介した記事：

蘇輝（スー・ヒュイ）：

それは一連の非常に価値のある研究活動です。昨年から最近にかけて、彼の研究は強化学習（RL）との直接的な関連が弱いものの、推論（reasoning）に関する部分で多くの実証的な実験を行い、いくつか意味のある結論を導き出しました。彼の研究は単に推論自体にとどまらず、現在の手法との関係も探求しており、例えばChain-of-Thought（CoT）推論や、どのようにRLを通じて推論能力をさらに向上させるかについても触れています。これらの研究アプローチは新人にとって非常に示唆に富んでおり、私もここで彼の研究を皆さんにおすすめします。

現在、多くの研究結果は十分な厳密性に欠けることがあります。その一部の理由は、研究環境が十分に制御可能でないことにあります。例えば、特定バージョンの大規模モデル（例：GPT-4）や、特定のデータセットおよび理論的枠組みに基づいた研究があります。しかし、これらのモデルの学習過程やデータ構成は通常ブラックボックスであり、研究者がデータに偶然の相関（spurious correlations）がないかどうかを明確にすることはできません。このような状況では、得られる結論が不十分であったり、データ自体の限界によって制約されたりすることがあります。

Alen Zhuの研究は、完全に制御可能な実験環境を構築することで上述の問題を解決しています。彼はデータからモデル構造まで全てを自主的に設計し、例えば合成訓練データを作成して難易度や論理のコントロールを行っています。このような環境下では、実験結果がデザインやデータの影響をより直接的に反映することができ、他の未知の変数による干渉を受けにくくなります。また、彼の研究は計算資源の制約により規模が特に大きくはありませんでしたが、実験設計の考え方は非常に拡張可能です。もしリソースが豊富なチームが引き継げば、実験規模を拡大し、結論の普遍性を検証したり、新しい理論を提案したりすることができます。

Cage：

（言語は主にコミュニケーションの道具であり、思考の道具ではない）。この記事では、非常に興味深い視点が議論されています。つまり、言語は人間に思考や推論能力を与える直接的な役割を果たすわけではなく、むしろ思想の外部反映や文化伝播の媒体として機能する可能性があるというものです。極端な例としては、失語症患者が言語能力を失っても、完全な論理的推論能力を保っていることがあります。

この視点を私たちが今日議論しているo1と強化学習（RL）技術路線に当てはめると、一つの示唆があります。それは、言語モデル（LM）がどの程度で人類の思考や推論プロセスを反映し、圧縮し、さらには模倣できるかが、未来のRL技術路線や言語モデルの能力上限を決定する重要な要素となるかもしれません。

もし言語が推論の最適な形式ではない場合、これは十分に考えられる可能性です。だとすれば、現在私達がo1で見ているCOT（Chain-of-Thought）推論パスが英語中心であることは、単なる出発点に過ぎないかもしれません。将来、AIが独自に発明する、より効率的な形式論理言語が現れ、それが訓練や推論に用いられる可能性があります。このような言語は現存する人間の言語フレームワークから完全に離れていながら、AI内部でより効率的な推論やコミュニケーションを実現するでしょう。

この観点からすると、AI同士のコミュニケーション方法は、人間の言語の効率や能力を超えうるものであり、それはAIの未来の能力に大きな影響を与える可能性があります。

この論文は、私が以前紹介した記事です：