アンドレイ・カルパシーによるLLMの詳細解説(パート2):GPT-2とLlama 3.1を用いた訓練と推論の理解

),今日は二つの例を見てみましょう。




GPT-2



GPT-2:トレーニングと推論

そのコア技術は現在も引き継がれており、規模と計算能力が大幅に向上しています。

GPT-2の基本パラメータ

  • 、GPT-2は規模が小さいです。
  • 最新モデルのコンテキストウィンドウはすでに拡張されています
  • その規模ははるかに小さいです。
  • Andrej は自分で GPT-2 を複製しました:https://github.com/karpathy/llm.c/discussions/677

GPT-2 のトレーニングプロセス

GPT-2 のトレーニングは本質的に

  1. 初期出力は完全にランダムです。
  2. 、100万のトレーニングデータにおけるトークンの予測を向上させ、現在の予測結果の誤差(ロス)を計算します。
  3. 、次のトークン予測の精度を向上させます。
  4. モデルの重みを更新し、その予測能力を徐々に向上させます。各ステップには約7秒かかります。

  5. 訓練が進むにつれて、生成されるテキストはランダムな文字から徐々に一貫性があり読みやすいものへと変化します。

訓練コスト

  • 2019年のGPT-2の訓練における推定コストは
  • 、今日では同じ規模のモデルを訓練するコストはおそらく低下し、

訓練コストが低下した主な理由:

  1. 無駄なデータを削減し、学習効率を向上させました。
  2. GPUの計算能力が大幅に向上し、学習速度が最適化されました。
  3. より効率的なトレーニングフレームワークにより、同じ計算リソースでより多くのタスクを実行できるようになります。

訓練の進展

  • 訓練の初期段階では、生成されるテキストは

  • 、しかし依然として全体的な論理が欠けています。

  • 、次のトークンを予測する正確性が大幅に向上します。

計算リソースとGPU

  • 個人用コンピュータでは処理が難しいです。
  • 現代のAIトレーニングはクラウド上のGPUクラスターに依存しており、例えばアンドレイが自身で再現したGPT-2は使用しました

  • 」の一部です。






Llama 3.1



Llama 3.1 ベースモデルの推論

、なぜなら它们は対話を行ったり命令を実行したりしないからです。

ベースモデルの仕組み

  • であり、訓練データの統計に基づいてトークンの系列を生成するものであって、インタラクティブなアシスタントではありません。
  • 、それは単に確率に基づいて Token を選択するだけであり、類似しています
  • 、しかし実際の応用では通常さらなる微調整が必要であり、それによって有用なアシスタントモデル(アシスタント モデル)になります。

Llama 3.1 Base Model

  • 訓練され公開され、現在でもっとも進んだオープンソースの基礎モデルの一つです。
  • と比べて、規模が大幅に向上しています。
  • これはGPT-2の
  • 、アシスタントモデルとして使用可能です。

Base Model の推論例

1. Base Model を直接使用する

https://app.hyperbolic.xyz/を使用して Base Model を利用できます。Base Model に次の入力を与えると:

"What is 2 + 2?"
  • 因为它不是助手模型。 -> 因为它不是助手模型 => アシスタントモデルではないためです。
  • 訓練データ内の統計的パターンに基づいて、次の最も可能性の高いトークンを予測するだけであるため、ランダムな内容を出力する可能性があります。例:
  • 問題を本当に理解することなく



アシスタントのように質問に答えることはないが、このベースモデルも非常に価値がある。なぜなら、それはすでに多くの世界に関する情報を学び、ネットワークの知識のパラメータを保存しており、ネットワーク情報の凝縮版だからだ。

2. 知識に基づくテキストの生成

入力すると:

"Here is a list of the top 10 landmarks in Paris:"
  • ベースモデルは自動的にそのリストを補完し、可能性のあるランドマーク情報を作成します。
  • 信頼できる事実とは限りません。

3. 記憶と汎化

  • トレーニングデータの再吐出 (Regurgitation) と呼ばれます。この現象が起こる理由は、Wikipediaの情報品質が高いので、モデルが訓練中にその情報を10回、場合によっては100回以上参照し、結果としてその記事を記憶してしまうためです。

  • しかし、それは誤りである可能性があります。この現象は幻覚(Hallucination)と呼ばれます。

ベースモデルをアシスタントに変えるにはどうすればよいですか?

ベースモデルがアシスタントではないものの、

  1. Few-shot Learning を使用することで、これを行います。

  • 例えば、複数の単語とその韓国語訳を提供し、モデルが自動的にパターンを学習するようにします:
  • ベースモデルは正しい補完を行う可能性があります

  • 会話風に装う

    • 、ベースモデルがアシスタントを演じるよう導きます:
    • こうすることで、ベースモデルはその形式を続け、まるで答えを提供しているように見えます。

    • しかし、時々ベースモデルの回答に加えてさらに幻覚が次の人の質問を生成します