、本日は画像に関連する部分についてさらに詳しく説明します。マイクロソフトは最近、「LMM の夜明け:GPT-4V(ision)の初步的探求」という論文を発表しました。この論文では、大規模言語モデルが視覚分野での応用力について重点的に議論されています。
論文リンク:https://arxiv.org/abs/2309.17421
GPT-4V は三大入力方式をサポートしています:
プレーンテキスト
画像キャプション
画像認識 オブジェクト位置特定 画像説明文 ビジュアルクイズ ビジュアル対話 密集キャプション説明
画像とテキストの融合
多种应用场景に適用可能 複数の画像入力を同時に処理し、クエリ情報を抽出します 画像とテキスト間の情報を効果的にマッチングします コンテキスト内のFew-Shot学習やその他の高次の指示技術に適用可能です
GPT-4Vの操作ヒント:
テキストによる指示
命令 | 応答 | 備考 |
---|---|---|
画像中のリンゴの数を数える | 一個のリンゴ | 数え間違えました |
図のリンゴを行ごとに数える | 第一行:4個のリンゴ | 結果は正しいが、過程で誤りがある |
数えの専門家として、次の図のリンゴを一行ずつ数えて、答えが正しいことを確認してください | 最初の行:4つのリンゴ | 指示が明確で、正しい応答を示す |
画像の中で物体を正確にマークするには、6つの方法から選択できます。
座標 クロップ(切り取り) 矢印 長方形 楕円形 手描き
GPT-4Vが示す汎用性と柔軟性により、マルチモーダルな命令を人間に近い方法で理解し、かつてない適応能力を発揮します。
サンプル数指示(Few-shot)
zero-shot 指示の場合、結果が誤ることがあります。
one-shot 指示でも、結果は依然として誤ることがあります。
しかし、few-shotインストラクションを使用すると、結果は完全に正確になります。