VLM-R1: Un modello linguistico-visivo di grandi dimensioni stile R1 stabile e generalizzabile
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
April 10, 2025
Autori: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
cs.AI
Abstract
Recentemente, DeepSeek R1 ha dimostrato che il reinforcement learning (RL) può migliorare significativamente le capacità di ragionamento dei Large Language Models (LLM) attraverso un design semplice ma efficace. Il cuore di R1 risiede nella sua formulazione di ricompensa basata su regole, che sfrutta compiti con risposte deterministiche di riferimento per consentire un calcolo preciso e stabile della ricompensa. Nel dominio visivo, osserviamo in modo simile che un'ampia gamma di compiti di comprensione visiva è intrinsecamente dotata di annotazioni di riferimento ben definite. Questa proprietà li rende naturalmente compatibili con meccanismi di ricompensa basati su regole. Motivati da questa osservazione, investigiamo l'estensione del reinforcement learning in stile R1 ai Vision-Language Models (VLM), con l'obiettivo di potenziare le loro capacità di ragionamento visivo. A tal fine, sviluppiamo VLM-R1, un framework dedicato progettato per sfruttare il RL per migliorare le prestazioni dei VLM su compiti generali di visione e linguaggio. Utilizzando questo framework, esploriamo ulteriormente la fattibilità dell'applicazione del RL al dominio visivo. I risultati sperimentali indicano che il modello basato su RL non solo offre prestazioni competitive nei compiti di comprensione visiva, ma supera anche il Supervised Fine-Tuning (SFT) in termini di capacità di generalizzazione. Inoltre, conduciamo studi di ablazione completi che rivelano una serie di intuizioni degne di nota, tra cui la presenza di reward hacking nel rilevamento di oggetti, l'emersione del "momento aha dell'OD", l'impatto della qualità dei dati di addestramento e il comportamento di scaling del RL su diverse dimensioni del modello. Attraverso queste analisi, miriamo ad approfondire la comprensione di come il reinforcement learning potenzi le capacità dei modelli di visione e linguaggio, e speriamo che i nostri risultati e contributi open-source supportino il progresso continuo nella comunità del RL per la visione e il linguaggio. Il nostro codice e il modello sono disponibili all'indirizzo https://github.com/om-ai-lab/VLM-R1.
English
Recently DeepSeek R1 has shown that reinforcement learning (RL) can
substantially improve the reasoning capabilities of Large Language Models
(LLMs) through a simple yet effective design. The core of R1 lies in its
rule-based reward formulation, which leverages tasks with deterministic
ground-truth answers to enable precise and stable reward computation. In the
visual domain, we similarly observe that a wide range of visual understanding
tasks are inherently equipped with well-defined ground-truth annotations. This
property makes them naturally compatible with rule-based reward mechanisms.
Motivated by this observation, we investigate the extension of R1-style
reinforcement learning to Vision-Language Models (VLMs), aiming to enhance
their visual reasoning capabilities. To this end, we develop VLM-R1, a
dedicated framework designed to harness RL for improving VLMs' performance on
general vision-language tasks. Using this framework, we further explore the
feasibility of applying RL to visual domain. Experimental results indicate that
the RL-based model not only delivers competitive performance on visual
understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in
generalization ability. Furthermore, we conduct comprehensive ablation studies
that uncover a series of noteworthy insights, including the presence of reward
hacking in object detection, the emergence of the "OD aha moment", the impact
of training data quality, and the scaling behavior of RL across different model
sizes. Through these analyses, we aim to deepen the understanding of how
reinforcement learning enhances the capabilities of vision-language models, and
we hope our findings and open-source contributions will support continued
progress in the vision-language RL community. Our code and model are available
at https://github.com/om-ai-lab/VLM-R1Summary
AI-Generated Summary