VL-Rethinker: Incentivare l'Auto-Riflessione dei Modelli Visione-Linguaggio con Apprendimento per Rinforzo
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
April 10, 2025
Autori: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI
Abstract
Recentemente, sistemi a pensiero lento come GPT-o1 e DeepSeek-R1 hanno dimostrato un grande potenziale nel risolvere problemi complessi attraverso una riflessione esplicita. Questi sistemi superano significativamente i migliori modelli a pensiero veloce, come GPT-4o, su vari benchmark di matematica e scienze. Tuttavia, le loro capacità di ragionamento multimodale rimangono alla pari con i modelli a pensiero veloce. Ad esempio, le prestazioni di GPT-o1 su benchmark come MathVista, MathVerse e MathVision sono simili a quelle dei modelli a pensiero veloce. In questo articolo, miriamo a migliorare le capacità di pensiero lento dei modelli visione-linguaggio utilizzando l'apprendimento per rinforzo (senza fare affidamento sulla distillazione) per avanzare lo stato dell'arte. In primo luogo, adattiamo l'algoritmo GRPO con una nuova tecnica chiamata Selective Sample Replay (SSR) per affrontare il problema degli svantaggi che svaniscono. Sebbene questo approccio produca prestazioni solide, i modelli addestrati con RL risultanti mostrano una limitata auto-riflessione o auto-verifica. Per incoraggiare ulteriormente il pensiero lento, introduciamo il Forced Rethinking, che aggiunge un trigger testuale di ripensamento alla fine dei rollout iniziali nell'addestramento RL, imponendo esplicitamente un passaggio di ragionamento di auto-riflessione. Combinando queste due tecniche, il nostro modello, VL-Rethinker, avanza i punteggi di stato dell'arte su MathVista, MathVerse e MathVision raggiungendo rispettivamente l'80,3%, il 61,8% e il 43,9%. VL-Rethinker raggiunge anche lo stato dell'arte open-source su benchmark multidisciplinari come MMMU-Pro, EMMA e MEGA-Bench, riducendo il divario con GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated
great potential in solving challenging problems through explicit reflection.
They significantly outperform the best fast-thinking models, such as GPT-4o, on
various math and science benchmarks. However, their multimodal reasoning
capabilities remain on par with fast-thinking models. For instance, GPT-o1's
performance on benchmarks like MathVista, MathVerse, and MathVision is similar
to fast-thinking models. In this paper, we aim to enhance the slow-thinking
capabilities of vision-language models using reinforcement learning (without
relying on distillation) to advance the state of the art. First, we adapt the
GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to
address the vanishing advantages problem. While this approach yields strong
performance, the resulting RL-trained models exhibit limited self-reflection or
self-verification. To further encourage slow-thinking, we introduce Forced
Rethinking, which appends a textual rethinking trigger to the end of initial
rollouts in RL training, explicitly enforcing a self-reflection reasoning step.
By combining these two techniques, our model, VL-Rethinker, advances
state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve
80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source
SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench,
narrowing the gap with GPT-o1.Summary
AI-Generated Summary