URSA: 다중 모달 수학에서의 사고 연쇄 추론 이해와 검증
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
January 8, 2025
저자: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI
초록
Chain-of-thought (CoT) 추론은 대규모 언어 모델의 수학적 추론에서 널리 적용되어 왔습니다. 최근에는 CoT 경로에 대한 파생 프로세스 감독의 도입이 테스트 시 스케일링 능력을 향상시키는 데 있어서 논의를 불러일으키며, 이 모델들의 잠재력을 증대시키고 있습니다. 그러나 다중 모달 수학적 추론에서 고품질 CoT 훈련 데이터의 부족으로 인해 기존 모델들이 높은 정밀도의 CoT 추론을 달성하지 못하고 테스트 시 추론 능력을 제한하고 있습니다. 본 연구에서는 CoT 증류, 경로 형식 재작성 및 형식 통합을 통합하는 세 가지 모듈 합성 전략을 제안합니다. 이는 다중 모달 수학에서 고품질 CoT 추론 지시 튜닝 데이터 세트인 MMathCoT-1M을 도출합니다. 우리는 훈련된 URSA-7B 모델의 최첨단 성능을 다중 모달 수학 벤치마크에서 철저하게 검증합니다. 테스트 시 스케일링을 위해, 해석과 논리 모두에 초점을 맞춘 프로세스 주석 데이터 세트인 DualMath-1.1M을 자동으로 생성하는 데이터 합성 전략을 소개합니다. DualMath-1.1M에서 URSA-7B를 추가로 훈련함으로써 CoT 추론 능력에서 견고한 감독 능력으로 전환합니다. 훈련된 URSA-RM-7B는 검증자 역할을 하여 URSA-7B의 성능을 효과적으로 향상시킵니다. URSA-RM-7B는 뛰어난 OOD(분포 밖) 검증 능력을 보여주며 일반화 능력을 증명합니다. 모델 가중치, 훈련 데이터 및 코드는 오픈 소스로 공개될 예정입니다.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical
reasoning of Large Language Models (LLMs). Recently, the introduction of
derivative process supervision on CoT trajectories has sparked discussions on
enhancing scaling capabilities during test time, thereby boosting the potential
of these models. However, in multimodal mathematical reasoning, the scarcity of
high-quality CoT training data has hindered existing models from achieving
high-precision CoT reasoning and has limited the realization of reasoning
potential during test time. In this work, we propose a three-module synthesis
strategy that integrates CoT distillation, trajectory-format rewriting, and
format unification. It results in a high-quality CoT reasoning instruction
fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively
validate the state-of-the-art (SOTA) performance of the trained URSA-7B model
on multiple multimodal mathematical benchmarks. For test-time scaling, we
introduce a data synthesis strategy that automatically generates process
annotation datasets, known as DualMath-1.1M, focusing on both interpretation
and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT
reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B
acts as a verifier, effectively enhancing the performance of URSA-7B at test
time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD)
verifying capabilities, showcasing its generalization. Model weights, training
data and code will be open-sourced.Summary
AI-Generated Summary