OThink-MR1: Stimolazione delle capacità di ragionamento generalizzato multimodale attraverso l'apprendimento per rinforzo dinamico

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno guadagnato un'attenzione significativa per la loro capacità di elaborare diversi tipi di dati in input e generare output coerenti e contestualmente rilevanti in varie applicazioni. Sebbene il fine-tuning supervisionato (SFT) sia stato l'approccio predominante per migliorare le capacità degli MLLM nell'ottimizzazione specifica per compiti, spesso non riesce a favorire cruciali abilità di ragionamento generalizzato. Sebbene l'apprendimento per rinforzo (RL) prometta di superare queste limitazioni, incontra due sfide significative: (1) le sue capacità generalizzate nei compiti multimodali rimangono in gran parte inesplorate e (2) i suoi vincoli di addestramento, inclusa la costante divergenza di Kullback-Leibler o la strategia di clamp, spesso portano a colli di bottiglia subottimali. Per affrontare queste sfide, proponiamo OThink-MR1, un MLLM avanzato dotato di profonde capacità di comprensione e ragionamento nei compiti multimodali. Nello specifico, introduciamo l'ottimizzazione delle politiche relative di gruppo con una strategia dinamica di Kullback-Leibler (GRPO-D), che migliora significativamente le prestazioni dell'apprendimento per rinforzo (RL). Per Qwen2-VL-2B-Instruct, GRPO-D ottiene un miglioramento relativo di oltre il 5,72% rispetto a SFT e di oltre il 13,59% rispetto a GRPO nella valutazione sullo stesso compito su due dataset adattati. Inoltre, GRPO-D dimostra notevoli capacità di generalizzazione cross-task, con un miglioramento relativo medio di oltre il 61,63% rispetto a SFT nella valutazione cross-task. Questi risultati evidenziano che l'MLLM addestrato con GRPO-D su un compito multimodale può essere efficacemente trasferito a un altro compito, sottolineando le superiori capacità di ragionamento generalizzato del nostro modello proposto OThink-MR1.

English

Multimodal Large Language Models (MLLMs) have gained significant traction for their ability to process diverse input data types and generate coherent, contextually relevant outputs across various applications. While supervised fine-tuning (SFT) has been the predominant approach to enhance MLLM capabilities in task-specific optimization, it often falls short in fostering crucial generalized reasoning abilities. Although reinforcement learning (RL) holds great promise in overcoming these limitations, it encounters two significant challenges: (1) its generalized capacities in multimodal tasks remain largely unexplored, and (2) its training constraints, including the constant Kullback-Leibler divergence or the clamp strategy, often result in suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an advanced MLLM equipped with profound comprehension and reasoning capabilities across multimodal tasks. Specifically, we introduce Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct, GRPO-D achieves a relative improvement of more than 5.72% over SFT and more than 13.59% over GRPO in same-task evaluation on two adapted datasets. Furthermore, GRPO-D demonstrates remarkable cross-task generalization capabilities, with an average relative improvement of more than 61.63% over SFT in cross-task evaluation. These results highlight that the MLLM trained with GRPO-D on one multimodal task can be effectively transferred to another task, underscoring the superior generalized reasoning capabilities of our proposed OThink-MR1 model.

OThink-MR1: Stimolazione delle capacità di ragionamento generalizzato multimodale attraverso l'apprendimento per rinforzo dinamico

OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

Abstract

Summary

Support

Support