Approfondimento dell'Addestramento Auto-Evolvente per il Ragionamento Multimodale
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Autori: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Abstract
La capacità di ragionamento è essenziale per i Grandi Modelli Multimodali (LMMs). In assenza di dati annotati con catene di pensiero multimodali, l'addestramento auto-evolutivo, in cui il modello impara dai propri output, è emerso come un approccio efficace e scalabile per potenziare le capacità di ragionamento. Nonostante il crescente utilizzo, la comprensione esaustiva dell'addestramento auto-evolutivo, in particolare nel contesto del ragionamento multimodale, rimane limitata. In questo articolo, approfondiamo le complessità dell'addestramento auto-evolutivo per il ragionamento multimodale, individuando tre fattori chiave: Metodo di Addestramento, Modello di Ricompensa e Variazione della Richiesta. Esaminiamo sistematicamente ciascun fattore ed esploriamo come varie configurazioni influenzino l'efficacia dell'addestramento. La nostra analisi porta a un insieme di migliori pratiche per ciascun fattore, mirate all'ottimizzazione del ragionamento multimodale. Inoltre, esploriamo le Dinamiche di Auto-Evoluzione durante l'addestramento e l'impatto dei meccanismi automatici di bilanciamento nel potenziare le prestazioni. Dopo tutte le indagini, presentiamo una ricetta finale per l'addestramento auto-evolutivo nel ragionamento multimodale, racchiudendo queste scelte progettuali in un framework che chiamiamo MSTaR (Addestramento Multimodale Auto-evolutivo per il Ragionamento), che è universalmente efficace per modelli di diverse dimensioni su vari benchmark, ad esempio superando significativamente il modello pre-evoluto su 5 benchmark di ragionamento multimodale senza utilizzare annotazioni umane aggiuntive, come dimostrato su MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Riteniamo che questo studio colmi una significativa lacuna nella comprensione dell'addestramento auto-evolutivo per il ragionamento multimodale e offra un framework robusto per la ricerca futura. I nostri modelli di politica e ricompensa, così come i dati raccolti, sono resi disponibili per facilitare ulteriori indagini nel ragionamento multimodale.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary