今週、MicrosoftはPhi-3シリーズのオープンモデルを発表しました。これは現在、最も能力がありコスト効率に優れた小型言語モデルです。
インスピレーションの源
昨年、マイクロソフトのロネン・エルダンは昼間には機械学習の謎の解決策を考え、夜には娘に寝る前の物語を読んでいたとき、「彼女はどのようにその単語を学んだのか?彼女はどのようにしてこれらの単語をつなぐことを知ったのか?」と考えました。この問いが、このマイクロソフトの機械学習専門家に新たなアイデアをもたらし、4歳児が理解できる単語だけを使うAIモデルがどれだけ学べるかという考えへと繋がりました。最終的に、この考えから革新的なトレーニング方法が生まれ、より強力な小型言語モデルの新しいクラスが誕生しました。このクラスのモデルは、より多くの人々がAIに簡単にアクセスできるようにします。
適用シーン
Phi-3-miniはすでにリリースされており、38億のパラメータを持ち、そのサイズの2倍のモデルを上回る性能を発揮します。Phi-3-small(70億パラメータ)とPhi-3-medium(140億パラメータ)は、まもなくAzure AIモデルカタログや他のモデルハブで利用可能になります。
小型言語モデルは、比較的簡単なタスクに対して良好なパフォーマンスを提供することを目指しており、リソースが限られている組織にとって取得や使用が容易です。また、特定のニーズに合わせて微調整するのがより簡単です。クラウドではなくローカルデバイス上で動作するアプリケーションを構築したい組織に適しており、広範な推論が必要ないタスクや迅速な応答が必要なタスクに適しています。データをデバイス内に保持することで、ユーザーは「遅延を最小限に抑え、プライバシーを最大限に確保」できます。
トレーニングデータ
極めて高品質なデータを探してトレーニングを行いました。約3,000語から成る独立したデータセットを作成し、名詞、動詞、形容詞がほぼ同じ数含まれるようにしました。その後、チームは大規模言語モデルにリスト内の1つの名詞、1つの動詞、1つの形容詞を使って子供向けの物語を作成させました。このプロンプトは数日間にわたって何百万回も繰り返され、何百万もの小さな子供向け物語が生成されました。マイクロソフトは得られたデータセットを「TinyStories」と呼び、これを用いて約1,000万パラメータを持つ非常に小型の言語モデルを訓練しました。チームを驚かせたのは、TinyStoriesで訓練された小型言語モデルが自らの物語を創作する際に文法的に完璧で流暢な叙述を生成したことでした。
次に、より大きな研究チームは教育価値やコンテンツの質に基づいてフィルタリングされた公開可能なデータを使用してPhi-1を訓練しました。初期の公開可能な情報を収集した後、チームはTinyStoriesに触発されたプロンプトとシード式を使用しましたが、さらに複雑化させてより幅広いデータを捉えるようにしました。高品質を確保するために、チームは生成されたコンテンツを何度もフィルタリングし、それを再びLLMに入力してさらなる統合を行いました。この方法により、数週間の努力の末、より強力なSLMを訓練するのに十分な大きさのデータコーパスが蓄積されました。最後にこのデータセットを「CodeTextbook」と名付けました。
研究者は、教師が学生に複雑な概念を教える方法を模倣してデータを選択することで、さらにデータセットを強化しました。「それは教科書のような資料から読み取られ、非常に非常に明確に説明された高品質なドキュメントから読み取られるため」とブベック氏は述べています。「あなたは言語モデルにこれらの資料を読ませ、理解させるタスクをより簡単にすることができます。」
評価
Phi-3モデルは、言語、プログラミング、数学的能力を評価するさまざまなベンチマークテストにおいて、同等規模またはそれ以上の規模のモデルよりも優れたパフォーマンスを発揮しました。
使用方法
Phi-3-miniは38億のパラメータを持つ言語モデルであり、現在Microsoft Azure AI Studio、HuggingFace、Ollamaで利用可能です。
Azure https://aka.ms/phi3-azure-ai HuggingFace https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3 Ollama https://ollama.com/library/phi3
Phi-3-miniは4Kおよび128Kトークンの2種類のコンテキスト長変体を提供します。これは、コンテキストウィンドウが128Kトークンまでサポートされる最初のモデルであり、品質への影響はほとんどありません。このモデルは命令チューニング済みであり、人々が通常コミュニケーションを行う方法を反映する様々なタイプの命令に従うように訓練されています。これにより、モデルがすぐに使用可能となります。
Azure AI上で利用可能であり、展開-評価-微調整ツールチェーンを利用でき、またOllama上でも提供され、開発者がノートパソコン上でローカルに実行することができます。
このモデルはONNX Runtimeのために最適化されており、Windows DirectMLに対応し、クロスプラットフォームサポートを備え、グラフィックス処理ユニット(GPU)、中央処理ユニット(CPU)、さらにはモバイルハードウェア上で動作します。
また、NVIDIA NIMマイクロサービスの形式で提供され、標準APIインターフェースを備えており、どこにでも展開でき、NVIDIA GPU向けに最適化されています。
弱点
大規模言語モデル(LLM)の能力に関して、Phi-3-miniモデルは言語理解や推論能力において大きなモデルに似ていますが、サイズの制限により、いくつかのタスクでは根本的な限界があります。
モデルには「事実知識」を大量に保存する能力がなく、TriviaQAでの低いパフォーマンスがその一例です。しかし、検索エンジンとの連携によってこの弱点を克服できると信じています。以下は、HuggingFaceのデフォルトのChat-UIを使用してphi-3-miniと対話した際の一例です。 もう一つのモデル容量に関連する弱点は、Phi-3が主に英語の使用に制限されていることです。小型言語モデルの多言語能力の探索は次の重要な発展方向であり、多言語データを導入することで、phi-3-smallにはすでにいくつか有望な結果が出始めています。