Explorando o Treinamento Autoevolutivo para Raciocínio Multimodal
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Autores: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Resumo
A capacidade de raciocínio é essencial para os Modelos Multimodais de Grande Escala (LMMs). Na ausência de dados anotados de corrente de pensamento multimodal, o treinamento autoevolutivo, no qual o modelo aprende a partir de suas próprias saídas, surgiu como uma abordagem eficaz e escalável para aprimorar as habilidades de raciocínio. Apesar de seu uso crescente, a compreensão abrangente do treinamento autoevolutivo, especialmente no contexto do raciocínio multimodal, ainda é limitada. Neste artigo, aprofundamos nas complexidades do treinamento autoevolutivo para o raciocínio multimodal, destacando três fatores-chave: Método de Treinamento, Modelo de Recompensa e Variação de Estímulo. Examinamos sistematicamente cada fator e exploramos como várias configurações afetam a eficácia do treinamento. Nossa análise resulta em um conjunto das melhores práticas para cada fator, com o objetivo de otimizar o raciocínio multimodal. Além disso, exploramos a Dinâmica de Autoevolução durante o treinamento e o impacto dos mecanismos automáticos de equilíbrio no aumento de desempenho. Após todas as investigações, apresentamos uma receita final para o treinamento autoevolutivo no raciocínio multimodal, encapsulando essas escolhas de design em um framework que chamamos de MSTaR (Treinamento Autoevolutivo Multimodal para Raciocínio), que é universalmente eficaz para modelos de diferentes tamanhos em vários benchmarks, por exemplo, superando significativamente o modelo pré-evoluído em 5 benchmarks de raciocínio multimodal sem o uso de anotações humanas adicionais, conforme demonstrado no MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Acreditamos que este estudo preenche uma lacuna significativa na compreensão do treinamento autoevolutivo para o raciocínio multimodal e oferece um framework robusto para pesquisas futuras. Nossos modelos de política e recompensa, bem como os dados coletados, são disponibilizados para facilitar investigações adicionais no raciocínio multimodal.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary