フランスのAI企業ミストラルがMistral OCRをリリースしました。

先週、フランスのAI企業ミストラルはMistral OCRを発表しました。

Mistral OCRは、文書理解用の新しい標準となる光学式文字認識(OCR)APIです。従来のOCRツールとは異なり、Mistral OCRは画像、テキスト、表、数式などの複雑な要素をこれまでにない精度で識別し理解することができます。入力形式として画像やPDFファイルに対応しており、出力は整理されたテキストと画像内容となります。

Mistral OCRは、検索拡張生成(RAG)システムと組み合わせて使用することで、スライドやリッチコンテンツを含むPDFのような多モーダルな複雑な文書を処理するのに特に適しています。

ミストラルはすでに、Le Chatプラットフォーム上の数百万人のユーザー向けにMistral OCRをデフォルトの文書理解モデルとして採用しています。新しく公開されたAPI(mistral-ocr-latest)は、約1ドルで約1000ページの文書を処理可能であり、バッチ推論の場合にはその効率が約2倍になります。

Mistral OCRの特長

  • 優れた複雑な文書理解能力
    Mistral OCRは、交差する画像、数式表現、表、LaTeXなどの高度な組版を含む複雑な要素を持つ文書に対して非常に強力な理解能力を持ち、特に図表、数式、画像が豊富に含まれる科学論文などに適しています。

  • ネイティブの多言語およびマルチモーダルコンテンツ対応
    Mistral OCRは多言語処理能力において優れており、世界中の各大陸における数千種類のフォントと言語を正確に解析でき、特にグローバル組織や地域特色のある企業に適しています。

  • トップクラスのパフォーマンスベンチマーク
    厳格なベンチマークテストにおいて、Mistral OCRは他の主要なOCRモデルを常に上回っています。全体的なパフォーマンス、数学的内容の認識、多言語対応、スキャンされたドキュメントの認識、テーブル認識など、あらゆる面で優れた成果を示しています。

  • 同種製品中最速
    Mistral OCRモデルは軽量であり、処理速度が他製品を大きく上回り、単一ノードで毎分最大2000ページのドキュメントを処理でき、特に高スループットの使用シーンに適しています。

  • ドキュメントがプロンプトとなり、構造化された出力
    Mistral OCRは「ドキュメントがプロンプト」という新しいアプローチを導入しており、ユーザーがより正確にドキュメント情報を抽出し、JSON形式などの構造化された出力を生成できるようになっています。これにより、より高度な自動化プロセスの構築が可能になります。

  • 選択的なローカルデプロイメントにより、敏感または機密データのニーズに対応します
    データプライバシー要件が高い組織向けに、Mistral OCR は選択的なオンプレミス展開オプションを提供し、機密性の高い情報や秘密情報を保護します

適用例

  • 科学研究のデジタル化:複数の研究機関が Mistral OCR を使用して科学論文やジャーナルをAIが読める形式に変換し、研究協力の効率を向上させています
  • 歴史的文化遺産の保護:文化保護団体や非営利機関は Mistral OCR を使用して歴史的文書をデジタル化し、その影響力を拡大しました。
  • 顧客サービスの最適化:カスタマーサービス部門は Mistral OCR を使用して取扱説明書や文書を検索可能な知識ベースに変換し、応答速度を向上させました。
  • 技術文書の変換:Mistral OCRは、企業が技術文献、エンジニアリング図面、教育ノート、プレゼンテーション資料、および法的文書をAI利用可能な形式に変換するのを支援し、ドキュメント処理の効率を向上させます。

卓越したパフォーマンス

厳格なベンチマークテストにおいて、Mistral OCRは他の主要なOCRモデルを常に上回りました。公平な比較のために、Google Docs AI、Microsoft Azure OCR、Gemini、GPT-4oなどの主流な製品を選定し、数学式、多言語コンテンツ、スキャンされた文書、複雑な表などさまざまなシーンをカバーするデータを使用しました。テスト文書には、インターネット上で一般的に見られるさまざまな形式のPDFや画像が含まれています。評価結果によると、Mistral OCRは全体的なパフォーマンス、数学認識、多言語対応、スキャン文書認識、表認識において優れた実績を残し、業界をリードしています。

ネイティブの多言語サポート

設立以来、Mistralは世界中のユーザーにモデルを提供することを目指し、モデルの多言語能力を継続的に最適化してきました。今回発表されたMistral OCRは、この能力をさらに強化しており、世界各大陸から数千種類の文字、フォント、言語を効率的に解析し、理解し、正確に転記することができます。

この全方位的な言語サポートは、異なる言語背景を持つドキュメントを扱う世界中の企業を支援するだけでなく、ローカル市場に特化したニッチな企業にも効率的な解決策を提供します。