NEMOTRON-CROSSTHINK: Schaalvergroting van zelflerend vermogen voorbij wiskundig redeneren
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning
April 15, 2025
Auteurs: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben sterke redeneervaardigheden getoond, vooral wanneer ze worden verbeterd door Reinforcement Learning (RL). Hoewel eerder onderzoek RL met succes heeft toegepast op wiskundig redeneren — waar regels en correctheid goed gedefinieerd zijn — blijft het generaliseren van deze methoden naar bredere redeneerdomeinen een uitdaging vanwege beperkte data, het ontbreken van verifieerbare beloningsstructuren en diverse taakeisen. In dit werk stellen we NEMOTRON-CROSSTHINK voor, een raamwerk dat systematisch multi-domein corpora, inclusief zowel synthetische als real-world vraag-antwoordparen, integreert in RL-training om de generalisatie over diverse redeneertaken te verbeteren. NEMOTRON-CROSSTHINK adresseert belangrijke uitdagingen door (1) data uit verschillende bronnen te incorporeren, variërend van STEM, geesteswetenschappen, sociale wetenschappen, etc.; (2) gestructureerde sjablonen toe te passen (bijv. meerkeuzevragen en open vragen) om de complexiteit van de antwoordruimte te beheersen; (3) te filteren op verifieerbare antwoorden; en (4) datablendingsstrategieën te optimaliseren die data uit meerdere bronnen effectief benutten. Onze aanpak maakt schaalbare en verifieerbare beloningsmodellering mogelijk die verder gaat dan wiskunde en toont verbeterde nauwkeurigheden op zowel wiskundige (MATH-500: +30,1%, AMC23: +27,5%) als niet-wiskundige redeneerbenchmarks (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Bovendien vertoont NEMOTRON-CROSSTHINK een aanzienlijk verbeterde antwoordefficiëntie — met 28% minder tokens voor correcte antwoorden — wat wijst op meer gericht en effectief redeneren. Met NEMOTRON-CROSSTHINK demonstreren we dat het integreren van multi-domein, multi-formaat data in RL leidt tot nauwkeurigere, efficiëntere en beter generaliseerbare LLMs.
English
Large Language Models (LLMs) have shown strong reasoning capabilities,
particularly when enhanced through Reinforcement Learning (RL). While prior
work has successfully applied RL to mathematical reasoning -- where rules and
correctness are well-defined -- generalizing these methods to broader reasoning
domains remains challenging due to limited data, the lack of verifiable reward
structures, and diverse task requirements. In this work, we propose
NEMOTRON-CROSSTHINK, a framework that systematically incorporates multi-domain
corpora, including both synthetic and real-world question-answer pairs, into RL
training to improve generalization across diverse reasoning tasks.
NEMOTRON-CROSSTHINK addresses key challenges by (1) incorporating data from
varied sources spanning STEM, humanities, social sciences, etc.; (2) applying
structured templates (e.g., multiple-choice and open-ended) to control
answer-space complexity; (3) filtering for verifiable answers; and (4)
optimizing data blending strategies that utilizes data from multiple sources
effectively. Our approach enables scalable and verifiable reward modeling
beyond mathematics and demonstrates improved accuracies on both math (MATH-500:
+30.1%, AMC23:+27.5%) and non-math reasoning benchmarks (MMLU-PRO: +12.8%,
GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Moreover,
NEMOTRON-CROSSTHINK exhibits significantly improved response efficiency --
using 28% fewer tokens for correct answers -- highlighting more focused and
effective reasoning. Through NEMOTRON-CROSSTHINK, we demonstrate that
integrating multi-domain, multi-format data in RL leads to more accurate,
efficient, and generalizable LLMs.Summary
AI-Generated Summary