Valutazione Generativa del Ragionamento Complesso nei Modelli Linguistici di Grande Scala
Generative Evaluation of Complex Reasoning in Large Language Models
April 3, 2025
Autori: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI
Abstract
Con i potenti modelli linguistici di grandi dimensioni (LLM) che dimostrano capacità di ragionamento sovrumane, sorge una domanda cruciale: gli LLM ragionano veramente o si limitano a ricordare risposte dai loro estesi dataset di addestramento ottenuti dal web? I benchmark rilasciati pubblicamente diventano inevitabilmente contaminati una volta incorporati nei successivi set di addestramento degli LLM, minando la loro affidabilità come valutazioni fedeli. Per affrontare questo problema, introduciamo KUMO, un framework di valutazione generativo progettato specificamente per valutare il ragionamento negli LLM. KUMO combina sinergicamente gli LLM con motori simbolici per produrre dinamicamente compiti di ragionamento diversificati, multi-turn, parzialmente osservabili e regolabili in difficoltà. Attraverso una pipeline automatizzata, KUMO genera continuamente nuovi compiti in domini aperti, costringendo i modelli a dimostrare una vera generalizzazione piuttosto che memorizzazione. Abbiamo valutato 23 LLM all'avanguardia su 5.000 compiti in 100 domini creati da KUMO, confrontando le loro capacità di ragionamento con quelle degli studenti universitari. I nostri risultati rivelano che molti LLM hanno superato le prestazioni di livello universitario su compiti di ragionamento semplici, e gli LLM scalati per il ragionamento raggiungono prestazioni di livello universitario su sfide di ragionamento complesse. Inoltre, le prestazioni degli LLM sui compiti di KUMO correlano fortemente con i risultati su nuovi benchmark di ragionamento del mondo reale, sottolineando il valore di KUMO come strumento di valutazione robusto e duraturo per le genuine capacità di ragionamento degli LLM.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning
capabilities, a critical question arises: Do LLMs genuinely reason, or do they
merely recall answers from their extensive, web-scraped training datasets?
Publicly released benchmarks inevitably become contaminated once incorporated
into subsequent LLM training sets, undermining their reliability as faithful
assessments. To address this, we introduce KUMO, a generative evaluation
framework designed specifically for assessing reasoning in LLMs. KUMO
synergistically combines LLMs with symbolic engines to dynamically produce
diverse, multi-turn reasoning tasks that are partially observable and
adjustable in difficulty. Through an automated pipeline, KUMO continuously
generates novel tasks across open-ended domains, compelling models to
demonstrate genuine generalization rather than memorization. We evaluated 23
state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO,
benchmarking their reasoning abilities against university students. Our
findings reveal that many LLMs have outperformed university-level performance
on easy reasoning tasks, and reasoning-scaled LLMs reach university-level
performance on complex reasoning challenges. Moreover, LLM performance on KUMO
tasks correlates strongly with results on newly released real-world reasoning
benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for
genuine LLM reasoning capabilities.Summary
AI-Generated Summary