メタが導入したCOCONUT連続思考チェーンは、伝統的なCoTに挑戦し、論理的推論能力を強化します

thought)。その中心的な考えは、LLMの最後の隠れ状態を推論状態の表現として利用すること(「連続思考」と呼ばれます)であり、それを単語トークンにデコードするのではなく、これらの連続的な表現が次の入力埋め込みに直接フィードバックされ、連続空間で推論を行うことです。

これまで、大規模言語モデル(LLMs)の推論は「言語空間」に限定されてきました。通常、複雑な問題を解決するために思考チェーン(Chain of Thought, CoT)を通じて推論プロセスを表現します。しかし、言語空間が常に推論にとって最適な選択肢であるとは限りません。例えば、多くの単語トークンはテキストの一貫性を保つために使用され、推論には関係がありません。一方で、いくつかの重要なトークンは複雑な計画を必要とし、LLMsに大きな挑戦を与えています。

CoT と Coconut の比較

CoT(Chain-of-Thought)

  • 推論モード:
CoTは単語マークの系列を生成することで推論プロセスを表現します。例えば:[x
  • 制約:
    • 推論は「言語空間」に制限されています。
    • 多くの単語のマークはテキストの一貫性を保つためのものですが、推論プロセスにはそれほど重要ではありません。
    • 重要なマークは複雑なプランニングを必要とし、LLMにとって挑戦となります。

Coconut(Chain of Continuous Thought)

  • 推論パターン:
    • モデルの最終隠れ状態を推論状態の表現と見なします(これを「連続思考」と呼びます)。
    • 「連続思考」を単語トークンにデコードするのではなく、次のステップの入力埋め込みとして直接使用します。
    • 推論は言語空間ではなく、制約のない潜在空間(latent space)で行われます。
  • 利点:
    • モデルは複数の潜在的な推論パスを探索できます。
    • のような推論が可能です。
    • 伝統的なCoTにおける単一のパスを早期に確定してしまう制限を回避します。

連続的な思考を言語トークンの位置にデコードする例です。

事例研究:ProsQA

CoTで訓練されたモデルは、行き止まりに遭遇した際に架空のエッジ(「すべてのyumpusはrempusである」)を生成しました。Coconut (k=1) の出力パスは無関係のノードで終了しましたが、Coconut (k=2) は正しく問題を解決しました。

Coconutのトレーニングプロセス

言語的な推論ステップを含むトレーニングデータでは、各トレーニング段階で追加の連続的思考(このケースではc=1)が導入され、一つの言語推論ステップが削除されます。その後、残りの言語トークン(連続的思考の後)に対してクロスエントロピー損失を適用して訓練を行います。

3つのデータセットの結果

GSM8k、ProntoQA、ProsQAの比較:高い精度はモデルがより強力な推論能力を持つことを示し、少ないトークンを生成することは推論効率が高いことを意味します。

X上のネットユーザーのコメント選集

基盤を変えると新しい洞察が得られることがあります。まるで椰子の木から落ちた気分です。😉

連続的な思考は、AIにおける出現する推論に関する私たちの認識を再定義するかもしれません。

これは非常に興味深い進展です!連続思考の概念は魅力的であり、大規模言語モデル(LLM)の推論能力を大幅に向上させる可能性があります。

一つの質問はさらに多くの質問を引き出す。