Explorando o Treinamento Autoevolutivo para Raciocínio Multimodal

Resumo

A capacidade de raciocínio é essencial para os Modelos Multimodais de Grande Escala (LMMs). Na ausência de dados anotados de corrente de pensamento multimodal, o treinamento autoevolutivo, no qual o modelo aprende a partir de suas próprias saídas, surgiu como uma abordagem eficaz e escalável para aprimorar as habilidades de raciocínio. Apesar de seu uso crescente, a compreensão abrangente do treinamento autoevolutivo, especialmente no contexto do raciocínio multimodal, ainda é limitada. Neste artigo, aprofundamos nas complexidades do treinamento autoevolutivo para o raciocínio multimodal, destacando três fatores-chave: Método de Treinamento, Modelo de Recompensa e Variação de Estímulo. Examinamos sistematicamente cada fator e exploramos como várias configurações afetam a eficácia do treinamento. Nossa análise resulta em um conjunto das melhores práticas para cada fator, com o objetivo de otimizar o raciocínio multimodal. Além disso, exploramos a Dinâmica de Autoevolução durante o treinamento e o impacto dos mecanismos automáticos de equilíbrio no aumento de desempenho. Após todas as investigações, apresentamos uma receita final para o treinamento autoevolutivo no raciocínio multimodal, encapsulando essas escolhas de design em um framework que chamamos de MSTaR (Treinamento Autoevolutivo Multimodal para Raciocínio), que é universalmente eficaz para modelos de diferentes tamanhos em vários benchmarks, por exemplo, superando significativamente o modelo pré-evoluído em 5 benchmarks de raciocínio multimodal sem o uso de anotações humanas adicionais, conforme demonstrado no MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Acreditamos que este estudo preenche uma lacuna significativa na compreensão do treinamento autoevolutivo para o raciocínio multimodal e oferece um framework robusto para pesquisas futuras. Nossos modelos de política e recompensa, bem como os dados coletados, são disponibilizados para facilitar investigações adicionais no raciocínio multimodal.

English

Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training's effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.

Explorando o Treinamento Autoevolutivo para Raciocínio Multimodal

Diving into Self-Evolving Training for Multimodal Reasoning

Resumo

Support