ChatPaper.aiChatPaper

Valutazione Generativa del Ragionamento Complesso nei Modelli Linguistici di Grande Scala

Generative Evaluation of Complex Reasoning in Large Language Models

April 3, 2025
Autori: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI

Abstract

Con i potenti modelli linguistici di grandi dimensioni (LLM) che dimostrano capacità di ragionamento sovrumane, sorge una domanda cruciale: gli LLM ragionano veramente o si limitano a ricordare risposte dai loro estesi dataset di addestramento ottenuti dal web? I benchmark rilasciati pubblicamente diventano inevitabilmente contaminati una volta incorporati nei successivi set di addestramento degli LLM, minando la loro affidabilità come valutazioni fedeli. Per affrontare questo problema, introduciamo KUMO, un framework di valutazione generativo progettato specificamente per valutare il ragionamento negli LLM. KUMO combina sinergicamente gli LLM con motori simbolici per produrre dinamicamente compiti di ragionamento diversificati, multi-turn, parzialmente osservabili e regolabili in difficoltà. Attraverso una pipeline automatizzata, KUMO genera continuamente nuovi compiti in domini aperti, costringendo i modelli a dimostrare una vera generalizzazione piuttosto che memorizzazione. Abbiamo valutato 23 LLM all'avanguardia su 5.000 compiti in 100 domini creati da KUMO, confrontando le loro capacità di ragionamento con quelle degli studenti universitari. I nostri risultati rivelano che molti LLM hanno superato le prestazioni di livello universitario su compiti di ragionamento semplici, e gli LLM scalati per il ragionamento raggiungono prestazioni di livello universitario su sfide di ragionamento complesse. Inoltre, le prestazioni degli LLM sui compiti di KUMO correlano fortemente con i risultati su nuovi benchmark di ragionamento del mondo reale, sottolineando il valore di KUMO come strumento di valutazione robusto e duraturo per le genuine capacità di ragionamento degli LLM.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

Summary

AI-Generated Summary

PDF125April 9, 2025