5億4000万年前から4億8500万年前にかけて、地球はカンブリア紀時代に入りました。
この時期、脊椎動物が初めて現れ、その脳構造には共通の基本的なフレームワークがありました:前脳、中脳、後脳。前脳はさらに皮質/基底核と視床/下垂体に発展し、サブユニット、階層化、および処理システムの初期形態を示しました。
強化学習と好奇心
サンダーケはパズルボックス実験を通じて、猫が試行錯誤によって学習できることを証明しました。この学習方法は強化学習と呼ばれ、この能力は脊椎動物で初めて現れました。
マービン・ミンスキーは、動物の学習を模倣するアルゴリズムであるSNARC(Stochastic Neural Analog Reinforcement Calculator)を開発しました。これは40個の人工ニューラルネットワークを使用しており、システムが迷路を成功裏に脱出すると、最近に活性化したシナプスが強化されました。しかし、どのステップを強化すべきかを決定するのが難しく、単に最近の行動だけを強化したり、すべての行動を強化したりすることは効果的ではなく、合理的な時間的信用分配メカニズムが欠けていたためです。
リチャード・サットンは、この問題を解決する新しい戦略を提案しました:実際の報酬(Actual Rewards)から期待報酬(Expected Rewards)への移行です。この方法では、時系列差分(Temporal Difference, TD)を使って学習します。テソロはこの原理に基づいて将棋のシステムを開発し、顕著な成果を上げ、TD学習法の有用性を証明しました。
2018年、Google DeepMindは新しいアルゴリズムを開発し、「モンテズマの復讐」ゲームの第一関をクリアしました。このアルゴリズムはサットンのTD学習に「好奇心」、つまり新しい行動を探索するための報酬を追加しています。オペラント条件付けにおけるスキナー箱のように、変動する報酬パターンは行動の強化に大きな影響を与えます。以前、私たちの会社は清華大学の王非教授をお招きして心理学について講演していただきました。彼は現代人でも「原始的な脳」の部分を保持していると述べました。現在見ると、多くの心理学的現象は古代生物の神経系の進化過程に遡ることができます。放射対称動物のニューロンから両側対称動物の脳の転換能力、そして脊椎動物の脳の強化学習能力まで、このような進化の道筋を辿って発展してきました。
好奇心と強化学習は共進化しました。なぜなら、好奇心は強化学習の必要条件だからです。パターン認識、場所の記憶、過去の報酬と罰に基づく行動の柔軟な調整能力を持つことで、最初の脊椎動物は新たな機会を得ました:学習自体が非常に価値のある活動となりました。脊椎動物が認識するパターンや記憶する場所が多いほど、生存の可能性は高まります。新しいことを試す回数が多いほど、行動と結果の偶発的な関係を発見し、正しい対応を学ぶ可能性も高くなります。
ドーパミン
脊椎動物の中脳の深部には、脳の複数の領域に信号を送る小さなドーパミンニューロンの集団があります。ドーパミンは強化に関連しており、脳内の快感信号です。予期しない報酬が得られたとき、ドーパミンの活動は増加します。一方、予想された報酬が得られなかったときには、ドーパミンの活動は減少します。
実験では、4秒後に食べ物を得ることを示唆する手がかりよりも、16秒後に食べ物を得ることを示唆する手がかりの方が、ドーパミンの放出をより引き起こすことが明らかになりました。この現象はディスカウント(Discounting)と呼ばれます。この原理は後にTD学習にも導入され、AIシステムがより速く報酬を得る行動を選択するように駆動します。
また、75%の確率で食べ物が出現することを示唆する信号よりも、25%の確率で食べ物が出現することを示唆する信号の方が、ドーパミンの放出をより引き起こすことがわかりました。このメカニズムもTD学習に導入されました。
注意すべきは、ドーパミンは報酬信号ではなく、強化信号であるということです。強化と報酬は解釈を分ける必要があります。強化学習が効果的に進行するためには、脳は予測される未来の報酬の変化に基づいて行動を強化する必要があり、実際の報酬に基づいて行動を強化するべきではありません。この進化は脊椎動物から始まりました。
基底核と下垂体
強化学習のメカニズムは、基底核と下垂体との間の古い相互作用に由来します。具体的な過程は以下の通りです:
:最初は下垂体によって制御されていました。下垂体は祖先の両側対称動物のドーパミン感受性ニューロンを保持しており、外部刺激を良いものまたは悪いものに分類し、それに応じた反射反応を引き起こします。
:下垂体は実際の報酬に対してのみ反応し、予測信号に対して興奮しません。そのため、真の報酬が到来したときにのみ反応します。
:下垂体の報酬ニューロンは、基底核中のドーパミンニューロンクラスターと接続してドーパミンの放出を制御します。下垂体が快感を感じると、基底核に大量のドーパミンを放出します。不快感を感じると、ドーパミンの放出を抑制します。
:基底核内部には2つの並列回路があります:
一つの回路は運動系に接続し、身体の動きを制御し、ドーパミンの放出を繰り返し引き起こす行動を学習することでこれらの動作を強化します。 もう一つの回路はドーパミンニューロンに接続し、将来の報酬を予測し、ドーパミンの活性化を能動的に引き起こします。
:初期には、基底核は下垂体からのフィードバックに依存して学習していました。しかし、時間とともに、それらは自己判断を学び、下垂体からのフィードバック前に自分の間違いに気づくようになりました。これが、ドーパミンニューロンが最初の報酬が到来したときに反応するが、時間とともに予測報酬の手がかりに対する反応に移行する理由です。
:基底核はドーパミンの放出を最大化する行動を繰り返し、これはサットンの「アクター」理論と一致しています。このシステムは、積極的な結果をもたらす行動を強化し、罰を与える行動を抑制することを目指しています。
このメカニズムを通じて、基底核と下垂体は脊椎動物の強化学習システムを共同で構築しました。
パターン認識
無脊椎動物から脊椎動物へと進化する過程で、動物はデコードニューロンのパターンを利用した大脳構造を持つようになり、事物を認識する能力が生まれました。これにより、彼らの知覚範囲は大幅に拡大しました。たった50種類の嗅覚ニューロンだけで、異なるパターンを識別することができます。わずか50個の細胞で100兆以上のパターンを表現できます。
パターン認識には2つの主要な課題があります:
:重複するパターンを異なるパターンとして区別する方法。 :既に識別されたパターンを一般化し、類似だが完全に同じではない新しいパターンを識別する方法。
AI分野では、教師あり学習と誤差逆伝播アルゴリズムが画像認識、自然言語処理、音声認識、自動運転車などに適用され、これらの2つの課題を効果的に解決しています。
しかし、脳は教師なし学習方式を採用し、誤差逆伝播に依存せず、他のメカニズムを通じてパターン認識の課題に対処しています。
例えば、嗅覚ニューロンは大脳皮質の錐体ニューロンに信号を送ります。以下に2つの興味深い特性があります:
:少数の嗅覚ニューロンが、それらよりも遥かに多い大脳皮質ニューロンに接続し、情報処理の空間を大幅に拡張します。 :特定の嗅覚ニューロンは、大脳皮質細胞の一部にしか接続せず、すべての細胞には接続しません。
これらの2つのシンプルな配線特性は、
の解決策を提供します——大脳皮質は類似だが異なるパターンを識別することができます。
ただし、脊椎動物の脳での学習プロセスと同様に、ニューラルネットワークが新しい知識を学ぶとき、古い知識を忘れる可能性があります。つまり、新しいパターンの学習が以前に学んだパターンを干渉する可能性があります。したがって、AIの一部のモデルのように、一度にすべてを学習し、その後学習を停止(すべてのパラメータを固定)する必要があります。
CNN
視覚的な物体が異なる角度、距離、位置にあるとき、異なるニューロンパターンが活性化され、「不変性問題」が生じます:入力が変化しても(下の2つの図のように)、同じ物体を認識する方法。脳は何らかの方法でこの問題を解決しています。
デイビッド・ヒューブルとトーステン・ウィーザーは、猫に異なる視覚刺激を見せ、ニューロンの活動を記録することで、視覚処理の階層的メカニズムを発見しました。最初に視覚信号を受け取る領域はV1(第一視覚野)です。彼らは、V1のニューロンが特定の線の方向と位置に非常に敏感であることを発見しました。例えば、一部のニューロンは垂直線にのみ反応し、他のニューロンは水平線や45度の線に反応します。V1は猫の全視野の地図であり、異なるニューロンが異なる位置と方向の線に対応しています。
視覚系はV1から始まり、複雑な視覚パターンを単純な線やエッジに分解します。その後、V1の出力はV2、V4などのより上位の領域に伝えられ、最終的にはIT領域に到達します。この階層構造では、処理レベルが上がると、ニューロンはますます複雑な特徴に敏感になります——V1は基本的な線を処理し、V2とV4はより複雑な形状を処理し、ITは全体的な物体、例えば顔を認識します。V1は視野の特定の領域の入力にのみ敏感ですが、ITは視野全体の物体を認識します。この過程は、単純な特徴から複雑な物体への段階的な統合によって視覚的不変性問題を解決します。
ヒューブルとウィーザーの2つの主要な発見:
視覚処理は階層的であり、低レベルのニューロンが単純な特徴を識別し、高レベルのニューロンが複雑な物体を識別します。 同一レベルのニューロンは同じ特徴に敏感ですが、異なる位置の入力に対応します。
これらの発見に触発されて、フクシマは畳み込みニューラルネットワーク(CNN)の概念を提唱しました。V1のように、CNNは最初に入力画像を特徴マップに分解し、各特徴マップは入力画像内の特定の特徴(例えば垂直線や水平線)の位置を示します。この過程は畳み込みと呼ばれます。
フクシマの革新点は「帰納バイアス」の導入でした。これは、システム設計時に導入される仮説のことです。CNNは、同じ特徴が異なる位置であっても同じ処理を受けるべきだという仮説を持っています。これにより、平行移動不変性問題が解決されます。この規則を直接ネットワーク構造にエンコードすることで、CNNは視覚情報を効率的に学習し、処理することができます。大量のデータと時間をかけてこの規則を手動で学習する必要はありません。
比較心理学者のキャロライン・デロンは、金魚が画像をクリックして餌を得る訓練を通じて認知能力を研究しました。彼女は金魚に2枚の画像を見せ、金魚がカエルの画像をクリックすると餌を与えるようにしました。すぐに、金魚はカエルの画像を見ると泳いでいくことを学びました。その後、デロンは実験を変更し、金魚が見たことのない角度からの同じカエルの画像を表示しました。驚くことに、金魚は新しいカエルの画像に向かって泳ぎ、即座にそのカエルを認識しました。小魚の脳は、我々の最先端のコンピュータビジョンシステムを超える面があることが分かります。CNNは物体の回転や3D変化を理解するのに大量のデータが必要ですが、魚は瞬時に新しい角度の物体を認識できるようです。
世界モデル
半規管の進化は早期の脊椎動物に起源を持ち、強化学習と空間マップの構築能力とほぼ同時に現れました。前庭感覚は空間マップの構築に不可欠です。脊椎動物の後脳には、魚からネズミまで様々な種に見られる「頭部方向ニューロン」があります。これらのニューロンは、動物が特定の方向を向いているときにのみ放電します。視覚と前庭入力を統合することで、神経羅針盤が形成され、脊椎動物の脳は3次元空間をシミュレートし、ナビゲートすることができます。
内側皮質は大脳皮質の一部であり、哺乳類では海馬に発展しました。魚が周りを泳ぐときに海馬内のニューロン活動を記録すると、特定の空間位置にいるときにのみ活性化するニューロンや、水槽の縁に近づいたり特定の方向を向いたりするときに活性化するニューロンが見つかります。視覚、前庭、頭部方向の信号が内側皮質に集まり、ここで混合され、空間マップに変換されます。
この過程で最も重要な突破は、脳が初めて内部モデル——外部世界の表現——を構築したことでした。当初、このモデルは空間内の任意の位置を認識し、任意の開始点から目標点までの正しい方向を計算するためのツールでした。しかし、この内部モデルの構築は、脳のさらなる進化の基礎となりました。それは最初の空間位置の記憶ツールから、より複雑な機能へと発展しました。