今日は、MiniCPM というプロジェクトについて研究しました。これは、携帯電話で動作するGPT-4Vクラスのマルチモーダル言語モデル(MLLM)であり、単一画像、複数画像、およびビデオの処理をサポートしています。
これは、視覚-言語理解のために設計されたエッジ側のマルチモーダル言語モデルのシリーズです。これらのモデルは、画像、ビデオ、テキストを受け取り、高品質なテキスト出力を生成します。2024年2月以来、すでに5つのバージョンがリリースされており、強力な性能と効率的な展開を目指しています。
2.6 バージョン 更新
:🔥🔥🔥 これは MiniCPM-V シリーズの中で最新かつ最も強力なモデルです。このモデルは80億のパラメータを持ち、GPT-4V を単一画像、複数画像、ビデオ理解において上回っています。また、単一画像理解では GPT-4o mini、Gemini 1.5 Pro、Claude 3.5 Sonnet を上回り、OCR能力、信頼性、多言語対応、エッジ側展開などにおいて MiniCPM-Llama3-V 2.5 を超えています。優れたトークン密度により、MiniCPM-V 2.6 は初めて iPad などのエッジ側デバイスでリアルタイムのビデオ理解を実現しました。
例例1: 自転車修理技術



例2: バーテンダーお姉さん電卓


例3: プログラマーブラザーのバグを修正する手伝い


例4: 例を提供して(Few-Shot)学習で論理的なバグを見つける













特徴:
:MiniCPM-V 2.6 は最新バージョンの OpenCompass 評価において、8つの人気ベンチマークテストを統合し、平均65.2点のスコアを達成しました。わずか80億のパラメータ量で、GPT-4o mini、GPT-4V、Gemini 1.5 Pro、Claude 3.5 Sonnet などの広く使用されている専有モデルを単一画像理解において上回っています。
:MiniCPM-V 2.6 はさらに複数の画像に関する対話と推論を行うことができ、Mantis-Eval、BLINK、Mathverse mv、Sciverse mv などの人気のある多画像ベンチマークテストで業界トップクラスのパフォーマンスを達成し、有望なコンテキスト学習能力も示しています。
:MiniCPM-V 2.6 はビデオ入力を受け付け、時空間情報に基づく対話や密なキャプション生成において優れたパフォーマンスを発揮します。Video-MME テストでは、字幕の有無にかかわらず GPT-4V、Claude 3.5 Sonnet、LLaVA-NeXT-Video-34B を上回っています。
:MiniCPM-V 2.6 は任意のアスペクト比の画像を処理でき、最大で 180 万ピクセル(例: 1344x1344)までの画像処理が可能です。OCRBench テストでは業界トップクラスの成績を収め、GPT-4o、GPT-4V、Gemini 1.5 Pro などの専有モデルを上回りました。最新の RLAIF-V と VisCPM 技術に基づき、信頼性の高い動作特性を持ち、物体の幻覚率は GPT-4o や GPT-4V よりも著しく低く、英語、中国語、ドイツ語、フランス語、イタリア語、韓国語など複数の言語に対応しています。
:MiniCPM-V 2.6 は、小型のサイズに加えて、業界をリードする Token 密度(つまり、各視覚 Token が符号化するピクセル数)を示しています。180万ピクセルの画像を処理する際、このモデルはわずか640個の Token を生成し、ほとんどのモデルよりも75%少ないです。これにより、推論速度、初 Token 遅延、メモリ使用量、そして消費電力が直接向上します。したがって、MiniCPM-V 2.6 は iPad などのエッジデバイスでのリアルタイムなビデオ理解を効率的にサポートできます。
:MiniCPM-V 2.6 は多様な使いやすい方法を提供します。1) llama.cpp と ollama によるローカルデバイス上の効率的な CPU 推論のサポート;2) int4 および GGUF 形式で16種類のサイズの量子化モデルの提供;3) vLLM による高スループットかつメモリ効率の高い推論のサポート;4) 新しいドメインやタスクに対するファインチューニングのサポート;5) Gradio を使用して迅速にローカル WebUI デモを構築;6) オンラインウェブデモの提供。