VLM-R1はDeepseek R1と同じGRPOアルゴリズムを採用しており、視覚能力が向上しています。今日はこのアルゴリズムがどのように視覚タスクのパフォーマンスを向上させているかについて議論します。

VLM-R1とは何ですか?
GRPO(Group Relative Policy Optimization)は、Deepseek R1の推論能力を向上させました。VLM-R1チームは、GRPOが一般的なコンピュータビジョンタスクにおいて視覚-言語モデル(VLMs)の性能を強化することもできると発見しました。さらに、その汎化能力は従来のSFT(Supervised Fine-Tuning)方法を超えています。
現在、VLM-R1のパフォーマンスは非常に優れており、Starの増加傾向も急速です。

試用リンク
https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression







評価
チームはQwen 2.5 VL 3Bモデルを使用し、RefCOCO(視覚定位タスク)で訓練を行い、RefCOCO ValとRefGTA(OODタスク)で評価を行いました。
具体的には、Referring Expression Comprehension(REC)タスクにおいて、R1およびSFT手法を用いてQwen2.5-VLモデルを訓練しました。結果は、領域内のテストデータにおいて、SFTモデルがR1モデルに若干劣る性能を示したことを示しています。
しかし、領域外のテストデータでは、SFTモデルの性能が訓練ステップの増加とともに著しく低下しましたが、R1モデルは安定した向上を示しました。