Approfondimento dell'Addestramento Auto-Evolvente per il Ragionamento Multimodale

Abstract

La capacità di ragionamento è essenziale per i Grandi Modelli Multimodali (LMMs). In assenza di dati annotati con catene di pensiero multimodali, l'addestramento auto-evolutivo, in cui il modello impara dai propri output, è emerso come un approccio efficace e scalabile per potenziare le capacità di ragionamento. Nonostante il crescente utilizzo, la comprensione esaustiva dell'addestramento auto-evolutivo, in particolare nel contesto del ragionamento multimodale, rimane limitata. In questo articolo, approfondiamo le complessità dell'addestramento auto-evolutivo per il ragionamento multimodale, individuando tre fattori chiave: Metodo di Addestramento, Modello di Ricompensa e Variazione della Richiesta. Esaminiamo sistematicamente ciascun fattore ed esploriamo come varie configurazioni influenzino l'efficacia dell'addestramento. La nostra analisi porta a un insieme di migliori pratiche per ciascun fattore, mirate all'ottimizzazione del ragionamento multimodale. Inoltre, esploriamo le Dinamiche di Auto-Evoluzione durante l'addestramento e l'impatto dei meccanismi automatici di bilanciamento nel potenziare le prestazioni. Dopo tutte le indagini, presentiamo una ricetta finale per l'addestramento auto-evolutivo nel ragionamento multimodale, racchiudendo queste scelte progettuali in un framework che chiamiamo MSTaR (Addestramento Multimodale Auto-evolutivo per il Ragionamento), che è universalmente efficace per modelli di diverse dimensioni su vari benchmark, ad esempio superando significativamente il modello pre-evoluto su 5 benchmark di ragionamento multimodale senza utilizzare annotazioni umane aggiuntive, come dimostrato su MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Riteniamo che questo studio colmi una significativa lacuna nella comprensione dell'addestramento auto-evolutivo per il ragionamento multimodale e offra un framework robusto per la ricerca futura. I nostri modelli di politica e ricompensa, così come i dati raccolti, sono resi disponibili per facilitare ulteriori indagini nel ragionamento multimodale.

English

Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training's effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.

Approfondimento dell'Addestramento Auto-Evolvente per il Ragionamento Multimodale

Diving into Self-Evolving Training for Multimodal Reasoning

Abstract

Support