ChatGPTの視覚領域における応用能力 - 上級編2

)、昨日は入力方法と操作テクニックについて説明しました。今日は昨日の共有を引き継ぎ、GPT-4の視覚言語能力の限界を探ってみましょう。彼女の能力が非常に強いため、2日間に分けて学習します。

GPT-4の視覚言語能力（前編）

昨日の共有に続き、GPT-4の視覚言語能力に関するパフォーマンスを見てみましょう：

異なる分野の画像の説明

：GPT-4は、2023年の主要7カ国首脳会議（G7サミット）で当時のアメリカ合衆国大統領が演説する場面を理解することができます。これは、そのモデルが新しい場面を要約し処理する能力を示しています。例えば、2023年のG7サミットのようなシーンも訓練データに含まれていなくても対応可能です。
：GPT-4は、ワシントン州シアトルにあるスペースニードルを正確に識別でき、そのタワーが1962年の世界博覧会のために建設され、以来シアトルの象徴となっていることを理解できます。
：GPT-4は画像中の複雑な詳細を効果的に捉えることができ、これにより特定の料理成分、装飾、または調理技術を識別することができます。
：GPT-4はJones骨折などの一般的な状況を識別することができます。
：GPT-4は、Microsoft 365 Copilotなど最近発表されたもののような、新しいまたは新興のロゴとアイコンの説明を提供できます。
：GPT-4は道路や車両の位置と色を描写でき、標識を読み取り、その道路の速度制限に注意を払うことができます。
：GPT-4は、誤導的な質問や指示が与えられた場合でも、画像の内容を正しく描写することができます。

オブジェクトの位置特定、カウント、および密集キャプション

：GPT-4は、画像中に人間と車両の間の空間的な関係を識別でき、カメラの視点が彼らが認識するサイズに影響を与える可能性があることを指摘できます。
：GPT-4は、画像中存在的する物体の数を正確に計算することができます。
：GPT-4は、個別のテキスト化された枠マーカーを使用せずに、境界ボックスの座標をテキスト形式で生成する能力を示しました。
：GPT-4は画像内の個体を成功裡に特定し識別し、その後それらの個体について簡潔な説明を提供することができます。

マルチモーダル知識、常識

：GPT-4は視覚とテキストモードから情報を収集する優れた能力を持ち、その後MEMEに埋め込まれたユーモアを理解します。
：GPT-4はサンプルAとサンプルBの平均粒子速度を識別できます。粒子速度、運動エネルギー、温度の間の関係を考慮することで、GPT-4は正しい答えを返しました。

」と観察されるのは、生成された答えがチュートリアル形式を採用し、段階的にテーマを説明していることです。

：[person1]と[person2]が着ているドレスや、シーンに存在する花の装飾から、彼らが結婚式に参加していると推測できます。

？」と問いかけたところ、GPT-4Vは画像内の多くの微細な視覚的ヒントを見分け、合理的な仮定のリストを提供しました。

まとめ：GPT-4は視覚言語能力において優れたパフォーマンスを発揮し、異なる分野の画像説明において強力な理解力と処理能力を見せています。また、空間関係の理解、物体のカウント、オブジェクトの位置特定、および密集キャプション生成においても優れた成果を収めています。さらに、GPT-4は多モーダル知識や常識に関する能力でも卓越しています。