URSA: Comprensione e Verifica del Ragionamento a Catena in Matematica Multimodale
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
January 8, 2025
Autori: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI
Abstract
Il ragionamento a catena di pensiero (CoT) è stato ampiamente applicato nel ragionamento matematico dei Grandi Modelli Linguistici (LLM). Recentemente, l'introduzione della supervisione del processo derivativo sulle traiettorie CoT ha suscitato discussioni sull'incremento delle capacità di scalabilità durante il test, potenziando così il potenziale di questi modelli. Tuttavia, nel ragionamento matematico multimodale, la scarsità di dati di addestramento CoT di alta qualità ha ostacolato i modelli esistenti nel raggiungere un ragionamento CoT ad alta precisione e ha limitato la realizzazione del potenziale di ragionamento durante il test. In questo lavoro, proponiamo una strategia di sintesi a tre moduli che integra la distillazione CoT, la riscrittura del formato della traiettoria e l'unificazione del formato. Ciò porta alla creazione di un dataset di addestramento per il raffinamento dell'istruzione di ragionamento CoT di alta qualità nella matematica multimodale, MMathCoT-1M. Validiamo in modo esaustivo le prestazioni state-of-the-art (SOTA) del modello addestrato URSA-7B su diversi benchmark matematici multimodali. Per la scalabilità durante il test, introduciamo una strategia di sintesi dati che genera automaticamente dataset di annotazioni del processo, noti come DualMath-1.1M, focalizzandosi sia sull'interpretazione che sulla logica. Attraverso ulteriore addestramento di URSA-7B su DualMath-1.1M, passiamo dalle capacità di ragionamento CoT a capacità di supervisione robuste. Il modello addestrato URSA-RM-7B funge da verificatore, migliorando efficacemente le prestazioni di URSA-7B durante il test. URSA-RM-7B dimostra inoltre eccellenti capacità di verifica fuori distribuzione (OOD), evidenziando la sua generalizzazione. I pesi del modello, i dati di addestramento e il codice saranno resi open-source.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical
reasoning of Large Language Models (LLMs). Recently, the introduction of
derivative process supervision on CoT trajectories has sparked discussions on
enhancing scaling capabilities during test time, thereby boosting the potential
of these models. However, in multimodal mathematical reasoning, the scarcity of
high-quality CoT training data has hindered existing models from achieving
high-precision CoT reasoning and has limited the realization of reasoning
potential during test time. In this work, we propose a three-module synthesis
strategy that integrates CoT distillation, trajectory-format rewriting, and
format unification. It results in a high-quality CoT reasoning instruction
fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively
validate the state-of-the-art (SOTA) performance of the trained URSA-7B model
on multiple multimodal mathematical benchmarks. For test-time scaling, we
introduce a data synthesis strategy that automatically generates process
annotation datasets, known as DualMath-1.1M, focusing on both interpretation
and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT
reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B
acts as a verifier, effectively enhancing the performance of URSA-7B at test
time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD)
verifying capabilities, showcasing its generalization. Model weights, training
data and code will be open-sourced.Summary
AI-Generated Summary