ChatPaper.aiChatPaper

다중 모달 추론을 위한 자기 진화 훈련에 대해 파고들기

Diving into Self-Evolving Training for Multimodal Reasoning

December 23, 2024
저자: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI

초록

추론 능력은 대규모 다중모달 모델(LMMs)에 있어서 필수적입니다. 다중모달 사고 연쇄를 주석 처리한 데이터가 없는 경우, 모델이 자체 출력물에서 학습하는 자기진화 훈련이 추론 능력을 향상시키는 효과적이고 확장 가능한 방법으로 등장했습니다. 증가하는 사용량에도 불구하고, 특히 다중모달 추론 맥락에서의 자기진화 훈련에 대한 포괄적인 이해는 제한적입니다. 본 논문에서는 다중모달 추론을 위한 자기진화 훈련의 복잡성에 대해 탐구하며, 훈련 방법, 보상 모델 및 프롬프트 변형이라는 세 가지 핵심 요소를 강조합니다. 우리는 각 요소를 체계적으로 조사하고 다양한 설정이 훈련의 효과에 어떻게 영향을 미치는지 탐구합니다. 우리의 분석은 각 요소에 대한 최적의 실천 방법을 도출하며, 다중모달 추론을 최적화하기 위한 목적을 가지고 있습니다. 더불어, 훈련 중의 자기진화 역학과 성능 향상을 위한 자동 균형 매커니즘의 영향을 탐구합니다. 모든 조사를 마친 후, 우리는 다중모달 추론을 위한 자기진화 훈련의 최종 레시피를 제시하며, 이러한 설계 선택 사항을 MSTaR(Multimodal Self-evolving Training for Reasoning)이라는 프레임워크로 포장합니다. 이는 다양한 벤치마크에서 다양한 크기의 모델에 대해 보편적으로 효과적이며, MiniCPM-V-2.5(8B), Phi-3.5-Vision(4B) 및 InternVL2(2B)에서 추가 인간 주석을 사용하지 않고 5개의 다중모달 추론 벤치마크에서 사전 진화된 모델을 크게 능가하는 것을 입증합니다. 우리는 이 연구가 다중모달 추론을 위한 자기진화 훈련에 대한 이해의 중요한 공백을 채우고, 향후 연구를 위한 견고한 프레임워크를 제공한다고 믿습니다. 우리의 정책 및 보상 모델, 그리고 수집된 데이터는 다중모달 추론에서의 추가적인 조사를 촉진하기 위해 공개됩니다.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training's effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.
PDF432December 24, 2024