I Tuoi LLM sono Capacità di Ragionamento Stabile?
Are Your LLMs Capable of Stable Reasoning?
December 17, 2024
Autori: Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen
cs.AI
Abstract
Il rapido avanzamento dei Grandi Modelli Linguistici (LLM) ha dimostrato un notevole progresso nelle complesse attività di ragionamento. Tuttavia, persiste una significativa discrepanza tra le prestazioni di riferimento e le applicazioni reali. Identifichiamo questa lacuna come derivante principalmente dai protocolli di valutazione attuali e dalle metriche, che catturano in modo inadeguato l'intero spettro delle capacità dei LLM, in particolare nelle complesse attività di ragionamento dove sia l'accuratezza che la coerenza sono cruciali. Questo lavoro apporta due contributi chiave. In primo luogo, introduciamo G-Pass@k, una nuova metrica di valutazione che fornisce una valutazione continua delle prestazioni del modello attraverso molteplici tentativi di campionamento, quantificando sia il potenziale massimo di prestazioni del modello sia la sua stabilità. In secondo luogo, presentiamo LiveMathBench, un benchmark dinamico che comprende problemi matematici sfidanti e contemporanei progettati per minimizzare i rischi di fuga di dati durante la valutazione. Attraverso estesi esperimenti utilizzando G-Pass@k su LLM all'avanguardia con LiveMathBench, forniamo approfondite intuizioni sia sulle loro capacità massime che sulla coerenza operativa. Le nostre scoperte rivelano un ampio margine di miglioramento nelle capacità di ragionamento "realistiche" dei LLM, evidenziando la necessità di metodi di valutazione più robusti. Il benchmark e i risultati dettagliati sono disponibili su: https://github.com/open-compass/GPassK.
English
The rapid advancement of Large Language Models (LLMs) has demonstrated
remarkable progress in complex reasoning tasks. However, a significant
discrepancy persists between benchmark performances and real-world
applications. We identify this gap as primarily stemming from current
evaluation protocols and metrics, which inadequately capture the full spectrum
of LLM capabilities, particularly in complex reasoning tasks where both
accuracy and consistency are crucial. This work makes two key contributions.
First, we introduce G-Pass@k, a novel evaluation metric that provides a
continuous assessment of model performance across multiple sampling attempts,
quantifying both the model's peak performance potential and its stability.
Second, we present LiveMathBench, a dynamic benchmark comprising challenging,
contemporary mathematical problems designed to minimize data leakage risks
during evaluation. Through extensive experiments using G-Pass@k on
state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights
into both their maximum capabilities and operational consistency. Our findings
reveal substantial room for improvement in LLMs' "realistic" reasoning
capabilities, highlighting the need for more robust evaluation methods. The
benchmark and detailed results are available at:
https://github.com/open-compass/GPassK.Summary
AI-Generated Summary