SFT o RL? Un'indagine preliminare sull'addestramento di modelli linguistici visivi di grandi dimensioni con ragionamento simile a R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Autori: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Abstract
Questo lavoro riprende il paradigma dominante del fine-tuning supervisionato (SFT) seguito dall'apprendimento per rinforzo (RL) per l'addestramento di Modelli Linguistico-Visuali di Grande Scala (LVLM), e rivela una scoperta chiave: l'SFT può compromettere significativamente il successivo RL inducendo "percorsi di ragionamento pseudo" imitati da modelli esperti. Sebbene questi percorsi possano assomigliare ai percorsi di ragionamento nativi dei modelli RL, spesso includono passaggi prolungati, esitanti, meno informativi e ragionamenti errati. Per studiare sistematicamente questo effetto, introduciamo VLAA-Thinking, un nuovo dataset multimodale progettato per supportare il ragionamento nei LVLM. Costruito attraverso una pipeline in sei fasi che include la creazione di didascalie, la distillazione del ragionamento, la riscrittura delle risposte e la verifica, VLAA-Thinking comprende tracce di ragionamento visivo di alta qualità passo-passo per l'SFT, insieme a una divisione RL più impegnativa proveniente dalla stessa fonte di dati. Utilizzando questo dataset, conduciamo esperimenti estesi confrontando SFT, RL e le loro combinazioni. I risultati mostrano che, sebbene l'SFT aiuti i modelli a imparare i formati di ragionamento, spesso blocca i modelli allineati in modalità di ragionamento imitative e rigide che ostacolano ulteriori apprendimenti. Al contrario, basandosi sull'ottimizzazione delle politiche relative al gruppo (GRPO) con un nuovo modulo di ricompensa mista che integra sia segnali percettivi che cognitivi, il nostro approccio RL favorisce un comportamento di ragionamento più genuino e adattivo. In particolare, il nostro modello VLAA-Thinker, basato su Qwen2.5VL 3B, raggiunge la performance top-1 sulla Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) tra i LVLM di scala 4B, superando il precedente stato dell'arte dell'1,8%. Speriamo che le nostre scoperte forniscano intuizioni preziose nello sviluppo di LVLM capaci di ragionamento e possano informare future ricerche in questo ambito.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary