OThink-MR1: Stimolazione delle capacità di ragionamento generalizzato multimodale attraverso l'apprendimento per rinforzo dinamico
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning
March 20, 2025
Autori: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno guadagnato un'attenzione significativa per la loro capacità di elaborare diversi tipi di dati in input e generare output coerenti e contestualmente rilevanti in varie applicazioni. Sebbene il fine-tuning supervisionato (SFT) sia stato l'approccio predominante per migliorare le capacità degli MLLM nell'ottimizzazione specifica per compiti, spesso non riesce a favorire cruciali abilità di ragionamento generalizzato. Sebbene l'apprendimento per rinforzo (RL) prometta di superare queste limitazioni, incontra due sfide significative: (1) le sue capacità generalizzate nei compiti multimodali rimangono in gran parte inesplorate e (2) i suoi vincoli di addestramento, inclusa la costante divergenza di Kullback-Leibler o la strategia di clamp, spesso portano a colli di bottiglia subottimali. Per affrontare queste sfide, proponiamo OThink-MR1, un MLLM avanzato dotato di profonde capacità di comprensione e ragionamento nei compiti multimodali. Nello specifico, introduciamo l'ottimizzazione delle politiche relative di gruppo con una strategia dinamica di Kullback-Leibler (GRPO-D), che migliora significativamente le prestazioni dell'apprendimento per rinforzo (RL). Per Qwen2-VL-2B-Instruct, GRPO-D ottiene un miglioramento relativo di oltre il 5,72% rispetto a SFT e di oltre il 13,59% rispetto a GRPO nella valutazione sullo stesso compito su due dataset adattati. Inoltre, GRPO-D dimostra notevoli capacità di generalizzazione cross-task, con un miglioramento relativo medio di oltre il 61,63% rispetto a SFT nella valutazione cross-task. Questi risultati evidenziano che l'MLLM addestrato con GRPO-D su un compito multimodale può essere efficacemente trasferito a un altro compito, sottolineando le superiori capacità di ragionamento generalizzato del nostro modello proposto OThink-MR1.
English
Multimodal Large Language Models (MLLMs) have gained significant traction for
their ability to process diverse input data types and generate coherent,
contextually relevant outputs across various applications. While supervised
fine-tuning (SFT) has been the predominant approach to enhance MLLM
capabilities in task-specific optimization, it often falls short in fostering
crucial generalized reasoning abilities. Although reinforcement learning (RL)
holds great promise in overcoming these limitations, it encounters two
significant challenges: (1) its generalized capacities in multimodal tasks
remain largely unexplored, and (2) its training constraints, including the
constant Kullback-Leibler divergence or the clamp strategy, often result in
suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an
advanced MLLM equipped with profound comprehension and reasoning capabilities
across multimodal tasks. Specifically, we introduce Group Relative Policy
Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly
enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct,
GRPO-D achieves a relative improvement of more than 5.72% over SFT and more
than 13.59% over GRPO in same-task evaluation on two adapted datasets.
Furthermore, GRPO-D demonstrates remarkable cross-task generalization
capabilities, with an average relative improvement of more than 61.63% over SFT
in cross-task evaluation. These results highlight that the MLLM trained with
GRPO-D on one multimodal task can be effectively transferred to another task,
underscoring the superior generalized reasoning capabilities of our proposed
OThink-MR1 model.Summary
AI-Generated Summary