Denken Sie zweimal nach: Verbesserung des LLM-Denkens durch Skalierung des mehrstufigen Testzeit-Denkens
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
March 25, 2025
Autoren: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs), wie OpenAI-o1 und DeepSeek-R1, haben die Wirksamkeit von Test-Time-Scaling demonstriert, bei dem erweiterte Denkprozesse die Modellleistung erheblich verbessern. Trotz dieser Fortschritte sind aktuelle Modelle durch Einschränkungen bei der Verarbeitung langer Texte und der Effizienz des Reinforcement Learning (RL)-Trainings begrenzt. Um diese Probleme zu lösen, schlagen wir einen einfachen, aber effektiven Test-Time-Scaling-Ansatz namens Multi-round Thinking vor. Diese Methode verfeinert das Modell-Denken iterativ, indem sie vorherige Antworten als Eingabe für nachfolgende Runden nutzt. Umfangreiche Experimente mit mehreren Modellen, darunter QwQ-32B und DeepSeek-R1, zeigen durchweg Leistungsverbesserungen auf verschiedenen Benchmarks wie AIME 2024, MATH-500, GPQA-diamond und LiveCodeBench. Beispielsweise verbesserte sich die Genauigkeit von QwQ-32B auf dem AIME 2024-Datensatz von 80,3 % (Runde 1) auf 82,1 % (Runde 2), während DeepSeek-R1 einen ähnlichen Anstieg von 79,7 % auf 82,0 % zeigte. Diese Ergebnisse bestätigen, dass Multi-round Thinking ein breit anwendbarer, unkomplizierter Ansatz ist, um stabile Verbesserungen der Modellleistung zu erzielen, und unterstreichen sein Potenzial für zukünftige Entwicklungen in Test-Time-Scaling-Techniken. Der Schlüssel-Prompt: {Originale Frage-Eingabe} Die vorherige Antwort des Assistenten lautet: <Antwort> {letzte Runde Antwort} </Antwort>, bitte erneut antworten.
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and
DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where
extended reasoning processes substantially enhance model performance. Despite
this, current models are constrained by limitations in handling long texts and
reinforcement learning (RL) training efficiency. To address these issues, we
propose a simple yet effective test-time scaling approach Multi-round Thinking.
This method iteratively refines model reasoning by leveraging previous answers
as prompts for subsequent rounds. Extensive experiments across multiple models,
including QwQ-32B and DeepSeek-R1, consistently show performance improvements
on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and
LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round
1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a
similar increase from 79.7% to 82.0%. These results confirm that Multi-round
Thinking is a broadly applicable, straightforward approach to achieving stable
enhancements in model performance, underscoring its potential for future
developments in test-time scaling techniques. The key prompt: {Original
question prompt} The assistant's previous answer is: <answer> {last round
answer} </answer>, and please re-answer.Summary
AI-Generated Summary