Metaが最新のLLMを発表:Llama 3.2 軽量版(Lightweight)および多モーダル版(Multimodal)

ファースの招待に感謝します。アメリカでメタコネクト会議に参加しました。ファースはとても親切で、多くのAI関連の分会場の情報を提供してくれましたが、自分ではLlama発表会の分会場を見つけることができませんでした。しかし、会場外でシンガポールの電話番号に接続して(WiFiも見つけられなかったので)、最新モデルLlama 3.2の紹介をスマートフォンで見ていました。(少し寂しかったです😂)

バージョン

 と 

軽量級(Lightweight) 1B および 3B モデル

これはMetaが提供する最も軽量で効率的なモデルであり、モバイルデバイスやエッジデバイス上で実行可能です。多言語テキスト生成とツール呼び出し能力において優れたパフォーマンスを発揮します。これらのモデルは、開発者がデバイス上でのパーソナライズされた自律的なアプリケーションを構築する力を与え、強力なプライバシー保護機能を持ち、データがデバイスから流出しないことを保証します。例えば、アプリケーションは最近受け取った10件のメッセージを要約し、重要なタスクを抽出し、ツール呼び出しを通じてカレンダー招待を直接送信して次の会議をスケジュールすることができます。

これらのモデルをローカルで実行することには主に2つの利点があります。まず、プロンプトと応答はほぼ瞬時に行われます。処理が地元で行われるためです。次に、ローカル実行によりプライバシーが維持され、メッセージやカレンダーなどのデータをクラウドにアップロードする必要がなくなり、全体的によりプライバシーに配慮したアプリケーションとなります。処理がローカルで完了することで、アプリケーションはどのクエリがデバイスに留まるか、またはクラウド上のより大規模なモデルによって処理されるべきかを明確に制御できます。

マルチモーダル(Multimodal) 11B および 90B モデル 

画像推論シーンのアプリケーションをサポートします。例えば、文書レベルの理解(チャートやグラフを含む)、画像キャプション生成、視覚的定位タスク(自然言語の説明に基づいて画像内の物体を正確に位置指定するなど)。例えば、ユーザーは前年にどの月が自分の小企業にとって最高の売上だったかを尋ねることができ、Llama 3.2は既存のチャートに基づいて迅速に答えを導き出します。もう一つの例として、モデルは地図の推論を行い、どのハイキングコースがより急峻になるのか、または地図にマークされた特定のトレイルの距離について回答することができます。11Bおよび90Bモデルは、視覚と言語の間の橋渡しを行い、画像の詳細を抽出し、シーンを理解し、簡潔な説明を生成して画像のキャプションとして使用し、物語をよりよく伝える手助けをします。

Llama Stack

Llama Stackは、自律的なアプリケーションを構築するための一連のシームレスなツールチェーンを提供します。

このコードベースには、Llama StackのAPI仕様、APIプロバイダ、およびLlama Stackリリース版が含まれています。Llama Stackは、生成型AIアプリケーションを構築するためのコアモジュールを定義し標準化することを目指しており、これらはモデルのトレーニングや微調整から製品評価、さらにはAIエージェントの構築と運用まで、全ライフサイクルをカバーしています。標準を定義するだけでなく、MetaはLlama Stack APIプロバイダの開発にも取り組んでおり、オープンソース版だけでなく、複数のパートナーと協力して、開発者がプラットフォーム間で一貫したモジュールを組み合わせてAIソリューションを構築できるようにしています。

完全なリリース内容には以下が含まれます:

  • :Llama Stackリリース版の構築、設定、実行に使用されます
  • :Python、Node、Kotlin、Swiftに対応
  • :Llama Stack Distribution ServerとAgents API Providerをサポート
  • 複数のリリース版
    • 単一ノードのLlama Stackリリース版:Meta内部実装およびOllamaによる提供
    • クラウド用Llama Stackリリース版:AWS、Databricks、Fireworks、Togetherをサポート
    • デバイス向けLlama Stackリリース版:iOS上でのPyTorch ExecuTorchによる実現
    • オンプレミス用Llama Stackリリース版:Dellによるサポート