ChatGPTの視覚領域における応用能力－ステップアップ1

、本日は画像に関連する部分についてさらに詳しく説明します。マイクロソフトは最近、「LMM の夜明け：GPT-4V(ision)の初步的探求」という論文を発表しました。この論文では、大規模言語モデルが視覚分野での応用力について重点的に議論されています。

論文リンク：https://arxiv.org/abs/2309.17421

GPT-4V は三大入力方式をサポートしています：

命令	応答	備考
画像中のリンゴの数を数える	一個のリンゴ	数え間違えました
図のリンゴを行ごとに数える	第一行：4個のリンゴ	結果は正しいが、過程で誤りがある
数えの専門家として、次の図のリンゴを一行ずつ数えて、答えが正しいことを確認してください	最初の行：4つのリンゴ	指示が明確で、正しい応答を示す

例を見てください

zero-shot 指示の場合、結果が誤ることがあります。

one-shot 指示でも、結果は依然として誤ることがあります。

しかし、few-shotインストラクションを使用すると、結果は完全に正確になります。