ChatPaper.aiChatPaper

RealCritic: Auf dem Weg zur Evaluation von Sprachmodellen basierend auf Effektivität

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

January 24, 2025
Autoren: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI

Zusammenfassung

Kritiken sind wichtig zur Verbesserung der Leistung von Large Language Models (LLMs), die sowohl Selbstverbesserung als auch konstruktives Feedback für andere ermöglichen, indem sie Mängel identifizieren und Verbesserungen vorschlagen. Die Bewertung der Kritikfähigkeiten von LLMs stellt jedoch aufgrund der offenen Natur der Aufgabe eine bedeutende Herausforderung dar. In dieser Arbeit stellen wir einen neuen Benchmark vor, der entwickelt wurde, um die Kritikfähigkeiten von LLMs zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die typischerweise in einer offenen Schleife funktionieren, verwendet unser Ansatz eine geschlossene Methodik, die die Qualität der Korrekturen bewertet, die aus Kritiken generiert werden. Darüber hinaus beinhaltet der Benchmark Funktionen wie Selbstkritik, Kreuzkritik und iterative Kritik, die entscheidend sind, um die Fähigkeiten von fortgeschrittenen Denkmodellen von klassischeren Modellen zu unterscheiden. Wir implementieren diesen Benchmark anhand von acht anspruchsvollen Denkaufgaben. Wir haben mehrere interessante Ergebnisse. Erstens, obwohl klassische LLMs eine vergleichbare Leistung bei der direkten Gedankengenerierung aufweisen, hinken sie in allen Kritikszenarien signifikant hinter dem auf fortgeschrittenem Denken basierenden Modell o1-mini zurück. Zweitens können klassische LLMs in den Einstellungen für Selbstkritik und iterative Kritik sogar im Vergleich zu ihren Grundfähigkeiten unterdurchschnittlich abschneiden. Wir hoffen, dass dieser Benchmark als wertvolle Ressource dienen wird, um zukünftige Fortschritte zu lenken. Der Code und die Daten sind verfügbar unter https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language Models (LLMs), enabling both self-improvement and constructive feedback for others by identifying flaws and suggesting improvements. However, evaluating the critique capabilities of LLMs presents a significant challenge due to the open-ended nature of the task. In this work, we introduce a new benchmark designed to assess the critique capabilities of LLMs. Unlike existing benchmarks, which typically function in an open-loop fashion, our approach employs a closed-loop methodology that evaluates the quality of corrections generated from critiques. Moreover, the benchmark incorporates features such as self-critique, cross-critique, and iterative critique, which are crucial for distinguishing the abilities of advanced reasoning models from more classical ones. We implement this benchmark using eight challenging reasoning tasks. We have several interesting findings. First, despite demonstrating comparable performance in direct chain-of-thought generation, classical LLMs significantly lag behind the advanced reasoning-based model o1-mini across all critique scenarios. Second, in self-critique and iterative critique settings, classical LLMs may even underperform relative to their baseline capabilities. We hope that this benchmark will serve as a valuable resource to guide future advancements. The code and data are available at https://github.com/tangzhy/RealCritic.

Summary

AI-Generated Summary

PDF342January 27, 2025