SFT o RL? Un'indagine preliminare sull'addestramento di modelli linguistici visivi di grandi dimensioni con ragionamento simile a R1

Abstract

Questo lavoro riprende il paradigma dominante del fine-tuning supervisionato (SFT) seguito dall'apprendimento per rinforzo (RL) per l'addestramento di Modelli Linguistico-Visuali di Grande Scala (LVLM), e rivela una scoperta chiave: l'SFT può compromettere significativamente il successivo RL inducendo "percorsi di ragionamento pseudo" imitati da modelli esperti. Sebbene questi percorsi possano assomigliare ai percorsi di ragionamento nativi dei modelli RL, spesso includono passaggi prolungati, esitanti, meno informativi e ragionamenti errati. Per studiare sistematicamente questo effetto, introduciamo VLAA-Thinking, un nuovo dataset multimodale progettato per supportare il ragionamento nei LVLM. Costruito attraverso una pipeline in sei fasi che include la creazione di didascalie, la distillazione del ragionamento, la riscrittura delle risposte e la verifica, VLAA-Thinking comprende tracce di ragionamento visivo di alta qualità passo-passo per l'SFT, insieme a una divisione RL più impegnativa proveniente dalla stessa fonte di dati. Utilizzando questo dataset, conduciamo esperimenti estesi confrontando SFT, RL e le loro combinazioni. I risultati mostrano che, sebbene l'SFT aiuti i modelli a imparare i formati di ragionamento, spesso blocca i modelli allineati in modalità di ragionamento imitative e rigide che ostacolano ulteriori apprendimenti. Al contrario, basandosi sull'ottimizzazione delle politiche relative al gruppo (GRPO) con un nuovo modulo di ricompensa mista che integra sia segnali percettivi che cognitivi, il nostro approccio RL favorisce un comportamento di ragionamento più genuino e adattivo. In particolare, il nostro modello VLAA-Thinker, basato su Qwen2.5VL 3B, raggiunge la performance top-1 sulla Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) tra i LVLM di scala 4B, superando il precedente stato dell'arte dell'1,8%. Speriamo che le nostre scoperte forniscano intuizioni preziose nello sviluppo di LVLM capaci di ragionamento e possano informare future ricerche in questo ambito.

English

This work revisits the dominant supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm for training Large Vision-Language Models (LVLMs), and reveals a key finding: SFT can significantly undermine subsequent RL by inducing ``pseudo reasoning paths'' imitated from expert models. While these paths may resemble the native reasoning paths of RL models, they often involve prolonged, hesitant, less informative steps, and incorrect reasoning. To systematically study this effect, we introduce VLAA-Thinking, a new multimodal dataset designed to support reasoning in LVLMs. Constructed via a six-step pipeline involving captioning, reasoning distillation, answer rewrite and verification, VLAA-Thinking comprises high-quality, step-by-step visual reasoning traces for SFT, along with a more challenging RL split from the same data source. Using this dataset, we conduct extensive experiments comparing SFT, RL and their combinations. Results show that while SFT helps models learn reasoning formats, it often locks aligned models into imitative, rigid reasoning modes that impede further learning. In contrast, building on the Group Relative Policy Optimization (GRPO) with a novel mixed reward module integrating both perception and cognition signals, our RL approach fosters more genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope our findings provide valuable insights in developing reasoning-capable LVLMs and can inform future research in this area.

SFT o RL? Un'indagine preliminare sull'addestramento di modelli linguistici visivi di grandi dimensioni con ragionamento simile a R1

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Abstract

Summary

Support

Support