ChatPaper.aiChatPaper

Temporale Konsistenz zur Fehleridentifikation im Denkprozess von LLMs

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Autoren: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Zusammenfassung

Die Verifikation ist entscheidend für effektives mathematisches Denken. Wir stellen eine neue Methode zur zeitlichen Konsistenz vor, bei der Verifizierer ihre Urteile iterativ auf der Grundlage der vorherigen Bewertung verfeinern. Im Gegensatz zu Ein-Runden-Verifikationen oder Multi-Modell-Debattenansätzen nutzt unsere Methode die Konsistenz in einer Abfolge von Selbstreflexionsaktionen, um die Verifikationsgenauigkeit zu verbessern. Empirische Auswertungen über verschiedene Benchmarks zur Identifikation von Fehlern in mathematischen Prozessen (Mathcheck, ProcessBench und PRM800K) zeigen durchgängige Leistungsverbesserungen gegenüber Baseline-Methoden. Bei der Anwendung auf die kürzlich destillierten DeepSeek-R1-Modelle demonstriert unsere Methode eine starke Leistung, wodurch destillierte 7B/8B-Modelle alle 70B/72B-Modelle und GPT-4o auf ProcessBench übertreffen. Bemerkenswerterweise erreicht das destillierte 14B-Modell mit unserer Methode eine Leistung, die mit DeepSeek-R1 vergleichbar ist. Unsere Codes sind verfügbar unter https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025