。今日は分岐して、LLama-3について話します。
まず、2024年4月19日の🏆LMSYSチャットボットアリーナリーダーボードのランキングを見てみましょう。LLama-3は5位に位置しています。
のモデルを発表する計画です。現在400Bの大規模モデルはまだ訓練中であり、今後の数ヶ月でMetaは新しい機能を持つ複数のモデルを発表します。これらにはマルチモーダル能力、複数言語対応、より長いコンテキストウィンドウ、そして全体的な強化が含まれます。
現在、Meta AIの公式サイトで使用できます - https://www.meta.ai、またモデルをダウンロードして自分自身で展開することも可能です。- https://llama.meta.com/docs/get-started
次に、公式に公開された性能ベンチマークデータを見てみましょう。
モデルアーキテクチャ
LLama-3は比較的标准的な単一デコーダーのトランスフォーマー(Transformer)アーキテクチャを採用しています。LLama-2と比べて、LLama-3ではいくつかの重要な改善が実施されました:LLama-3は128,000語彙のトークナイザーを使用しており、これにより言語をより効率的にエンコードし、モデルの性能を大幅に向上させています。推論効率を向上させるために、8B版および70B版の両方でグループ化クエリ注意(Grouped Query Attention、GQA)技術が採用されています。さらに、モデルは長さ8,192語彙のシーケンスを処理し、マスクを使用して自己注意が文書境界を超えないようにしています。
訓練データ
LLama-3は15兆以上の語彙で事前学習されており、すべて公開資料から取得されています。このデータセットはLLama-2の7倍の大きさで、プログラミング関連のコンテンツは4倍多いです。多言語対応のために、30種類以上の言語が5%以上カバーされていますが、非英語の表現はやや劣る可能性があります。チームはヒューリスティックフィルタリング、成人向けコンテンツフィルタリング、意味的重複除去、品質予測分類器などの複数のデータフィルタリング技術を開発し、これによりLLama-3はさまざまな应用场景で良好なパフォーマンスを維持しています。
拡張事前学習
LLama-3モデルの事前学習では、詳細な拡張ルールを設定することで、効率的に事前学習データを利用し、データの組み合わせを最適化し、賢く訓練計算リソースを使用しています。これらの拡張ルールは、コード生成におけるHumanEvalベンチマークテストなどの重要タスクでの最大モデルのパフォーマンスを予測するのに役立ちます。
LLama-3の開発中に、モデルの拡張行動に関する新たな観察がありました。例えば、理想的な8Bパラメータモデルの訓練計算量は約200B語彙ですが、Metaチームはデータ量を10倍に増やした後でもモデルのパフォーマンスが向上していることを発見しました。8Bおよび70Bパラメータモデルは、15兆語彙まで訓練されると、依然として対数線形でパフォーマンスが向上しています。
LLama-3の大規模モデルの訓練には、データ並列、モデル並列、パイプライン並列という3つの並列化技術を使いました。16K GPU同時訓練時に、各GPUあたり400 TFLOPSを超える計算利用率を達成しました。さらに、自社の24K GPUクラスタ2つで訓練を行い、新しい訓練アーキテクチャを開発し、自動エラーディテクションと処理を実現し、GPUの稼働時間効率を大幅に向上させました。また、ハードウェア信頼性とサイレントデータ損傷の検出機構を改善し、新しいスケーラブルなストレージシステムを開発し、チェックポイントとロールバックのオーバーヘッドを削減しました。これらの改善により、LLama-3の訓練効率はLLama-2よりも約3倍向上しました。
Fine-Tuning
事前学習モデルのチャットアプリケーションにおける潜在力を最大限に引き出すため、チームは命令微調整方法にも革新を加えました。これは監督型微調整(SFT)、拒否サンプリング、近接戦略最適化(PPO)、直接戦略最適化(DPO)を含んでいます。SFTで使用されるプロンプトの質、およびPPOとDPOで使用される優先順位付けは、モデルのパフォーマンスに大きな影響を与えます。これらのデータを慎重に企画し、人間のアノテーターによるアノテーションに対して複数回の品質保証を行うことで、モデルの質が大幅に向上しました。PPOとDPOによる優先順位付けの学習により、推論やプログラミングタスクでのLLama 3のパフォーマンスが大幅に向上しました。モデルが推論問題に回答する際に困難に直面しても、正しい推論経路を生成することがあります:モデルは正しい答えを生成する方法を知っていますが、それを選択する方法を知らない場合があります。優先順位付けのトレーニングを通じて、モデルはどのように選択するかを学びます。