URSA: Compreensão e Verificação do Raciocínio em Cadeia de Pensamento em Matemática Multimodal

Resumo

O raciocínio em cadeia (CoT) tem sido amplamente aplicado no raciocínio matemático dos Modelos de Linguagem de Grande Escala (LLMs). Recentemente, a introdução da supervisão do processo derivativo em trajetórias CoT tem suscitado discussões sobre aprimorar as capacidades de escalabilidade durante o tempo de teste, impulsionando assim o potencial desses modelos. No entanto, no raciocínio matemático multimodal, a escassez de dados de treinamento CoT de alta qualidade tem impedido que os modelos existentes alcancem um raciocínio CoT de alta precisão e têm limitado a realização do potencial de raciocínio durante o tempo de teste. Neste trabalho, propomos uma estratégia de síntese de três módulos que integra a destilação CoT, a reformulação do formato de trajetória e a unificação de formato. Isso resulta em um conjunto de dados de ajuste fino de instruções de raciocínio CoT de alta qualidade em matemática multimodal, MMathCoT-1M. Validamos de forma abrangente o desempenho de estado-da-arte (SOTA) do modelo treinado URSA-7B em múltiplos benchmarks matemáticos multimodais. Para a escalabilidade no tempo de teste, introduzimos uma estratégia de síntese de dados que gera automaticamente conjuntos de dados de anotação de processo, conhecidos como DualMath-1.1M, focando tanto na interpretação quanto na lógica. Ao treinar ainda mais o URSA-7B no DualMath-1.1M, fazemos a transição das capacidades de raciocínio CoT para habilidades robustas de supervisão. O URSA-RM-7B treinado atua como um verificador, aprimorando efetivamente o desempenho do URSA-7B no tempo de teste. O URSA-RM-7B também demonstra excelentes capacidades de verificação fora da distribuição (OOD), mostrando sua generalização. Os pesos do modelo, dados de treinamento e código serão disponibilizados em código aberto.

English

Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

URSA: Compreensão e Verificação do Raciocínio em Cadeia de Pensamento em Matemática Multimodal

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Resumo

Summary

Support