RealCritic: Naar een evaluatie van taalmodellen gericht op effectiviteit
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
Auteurs: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Samenvatting
Kritieken zijn belangrijk voor het verbeteren van de prestaties van Grote Taalmodellen (GTM's), waardoor zowel zelfverbetering als constructieve feedback voor anderen mogelijk wordt door gebreken te identificeren en verbeteringen voor te stellen. Het evalueren van de kritiekcapaciteiten van GTM's vormt echter een aanzienlijke uitdaging vanwege de open aard van de taak. In dit werk introduceren we een nieuwe benchmark die is ontworpen om de kritiekcapaciteiten van GTM's te beoordelen. In tegenstelling tot bestaande benchmarks, die doorgaans functioneren op een open-loop manier, maakt onze benadering gebruik van een gesloten-lus methodologie die de kwaliteit van correcties beoordeelt die voortkomen uit kritieken. Bovendien omvat de benchmark functies zoals zelfkritiek, kruiskritiek en iteratieve kritiek, die cruciaal zijn voor het onderscheiden van de capaciteiten van geavanceerde redeneringsmodellen van meer klassieke modellen. We implementeren deze benchmark met behulp van acht uitdagende redeneertaken. We hebben verschillende interessante bevindingen. Ten eerste, ondanks het tonen van vergelijkbare prestaties in directe gedachtenganggeneratie, blijven klassieke GTM's aanzienlijk achter bij het op redenering gebaseerde model o1-mini in alle kritiekscenario's. Ten tweede, in zelfkritiek en iteratieve kritiekinstellingen kunnen klassieke GTM's zelfs onderpresteren ten opzichte van hun basiscapaciteiten. We hopen dat deze benchmark zal dienen als een waardevolle bron om toekomstige ontwikkelingen te begeleiden. De code en gegevens zijn beschikbaar op https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary