GPT-4oのネイティブ画像機能が正式にリリース

その後、OpenAIは本日未明、ライブ配信、ブログ記事およびシステムカードを通じて、正式にGPT-4oのネイティブ画像生成功能を発表し、そのモデルは自己回帰(autoregressive)モデルであることが確認されましたこの新しいモデルの仕組みに関する現在までに入手できた最も詳細な情報は、 Allan Jabri が公開した画像であり、彼はオリジナルの4o画像生成技術の開発を担当したとされています(その後、Gabe Goh が引き継ぎました)。

GPT-4o 画像生成機能が全面展開開始

OpenAI は、GPT-4o の画像生成機能が本日から ChatGPT および Sora の Plus、Pro、Team、無料ユーザー向けに段階的に提供開始されることを発表しました。
Kevin Weil の説明によると、今回のアップデートにより大幅な改善がもたらされ、特に複雑な指示や詳細な視覚レイアウトの処理において顕著な成果を上げています。GPT-4o は、クリアなテキストやさまざまなスタイルの画像、リアルな写真風のスタイルを含む生成能力を持っています。

ユーザーからのフィードバック:導入体験と実際のパフォーマンス

実際の生成品質に関して、新モデルのパフォーマンスは広く認められています:

  • 画像の品質が大幅に向上し、テキストが鮮明に表示され、人物像がより現実的になりました;
  • 多くのユーザーが高品質なステッカーや映画ポスターを生成した体験を共有し、それを「ゲームチェンジャー」と称しています;
  • ユーザーは、このモデルが公人像や3Dプリンティングに対応する画像を処理する能力に大きな関心を示しています;
  • 一部のユーザーは、このような新しいツールの普及がPhotoshopなどの伝統的なデザインツールに影響を与える可能性を懸念しています。

また、一部のユーザーはTwitter上で、明確な要求がないにもかかわらず、GPT-4oが画像を勝手に修正するケースがあると不満を訴えています。例えば、顔の特徴を過度に美化(目を大きくしたり、顔の比例を調整したり)、場合によってはユーザーの全体的な外見を変えてしまうことがあり、これらは「無断での編集」とみなされています。さらに、多くのユーザーが指摘しているのは、わずかなプロンプトの変更でも明らかな誤りが発生することがあり、このモデルがプロンプトの変化に対して非常に敏感であることを示しています。

生成される画像の品質については高い評価を得ていますが、ユーザーからは新しいジェネレーターの動作速度が比較的遅いという指摘もあります。

さらに、ユーザーたちはSora.comプラットフォームでPlusサブスクリプションを利用してGPT-4oの画像生成機能を試した際の具体的な体験を共有しており、このツールがプロンプトに忠実である点について高く評価しています。また、『ドラゴンボールZ』(DBZ)のシーンを生成するといった創造的な例も提供されています。

公式情報

OpenAIは、ネット上の画像とテキストの合同分布に基づいてGPT-4oを訓練しました。これにより、モデルは画像とテキストの間の関係だけでなく、画像同士の内在的な関連性も学習しました。強化された後続訓練を通じて、GPT-4oは驚くべき視覚的流暢さを持ち、実用的で一貫性があり、文脈に敏感な画像を生成できるようになりました。

精密な文字描画

「一図千言に勝る」と言われますが、時には画像中にいくつかの重要な文字を適切に配置することで、そのコミュニケーション効果がさらに向上します。GPT-4oは、テキストと画像を正確に融合し、画像生成を有効な視覚的コミュニケーションツールに変えることができます。

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.


Context:

a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.


Characters:

one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.


Composition from background to foreground:

streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

複数ラウンドの反復的な画像生成をサポート

GPT-4oは、対話の中で画像を継続的に最適化することをネイティブでサポートしています。例えば、ゲームキャラクターのデザインにおいて、多次にわたる調整でもキャラクターの外見の一貫性が保たれ、ユーザーは自然な会話形式で画像の詳細を繰り返し洗練し、調整することができます。

優れた命令遵循能力

他のシステムが通常約5つから8つの物体しか処理できないのに対し、GPT-4oは10から20個の異なる物体を正確に処理できます。より精密な物体と属性の関連付けにより、ユーザーは画像出力をより詳細に制御することができます。

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1. a blue star

2. red triangle

3. green square

4. pink circle

5. orange hourglass

6. purple infinity sign

7. black and white polka dot bowtie

8. tiedye "42"

9. an orange cat wearing a black baseball cap

10. a map with a treasure chest

11. a pair of googly eyes

12. a thumbs up emoji

13. a pair of scissors

14. a blue and white giraffe

15. the word "OpenAI" written in cursive

16. a rainbow-colored lightning bolt

コンテキスト学習と適用

GPT-4oは、ユーザーがアップロードした画像を解析し、その詳細をモデルのコンテキスト環境にシームレスに統合することで、より正確でニーズに合った画像生成を実現します。

豊富な世界知識と画像スタイル

モデルが多种の画像スタイルを学習したおかげで、GPT-4oは各种のスタイルの画像を生成または変換でき、写真のようなリアルさを正確に実現できます。

make a very colorful risograph on how to make matcha

現在の限界と今後の改善方向

もちろん、モデルはまだ完璧ではありません。GPT-4oには公開後にいくつかの既知の限界がありますが、OpenAIはこれらの問題を段阶的に解决するためにモデルの改善と最適化を持续すると述べています。

The model is known to struggle when asked to render detail information at a very small size.