ChatPaper.aiChatPaper

I modelli linguistici di livello PhD comprendono davvero l'addizione elementare? Esplorando l'apprendimento di regole rispetto alla memorizzazione nei grandi modelli linguistici

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

April 7, 2025
Autori: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI

Abstract

Nonostante i punteggi elevati nei benchmark, i Large Language Models (LLM) spesso falliscono in problemi semplici, sollevando una questione critica: gli LLM apprendono i principi matematici o si limitano a memorizzare schemi? Piuttosto che progettare benchmark sempre più complessi come nei lavori recenti, investigiamo questo aspetto utilizzando l'addizione elementare di due numeri interi (da 0 a 2^{64}), esaminando due proprietà fondamentali: la commutatività (A+B=B+A) e la generalizzazione composizionale (tramite mappature simboliche isomorfe, ad esempio, 7 → y). Mentre gli LLM all'avanguardia raggiungono un'accuratezza del 73,8-99,8% nell'addizione numerica, le prestazioni crollano a ≤7,5% sotto mappatura simbolica, indicando un fallimento nella generalizzazione delle regole apprese. La scalatura non monotona delle prestazioni con il numero di cifre e le frequenti violazioni della commutatività (oltre 1.700 casi di A+B ≠ B+A) supportano ulteriormente questa conclusione. Fornire esplicitamente le regole di addizione riduce le prestazioni in media dell'81,2%, mentre l'auto-spiegazione mantiene l'accuratezza di base, suggerendo che l'elaborazione aritmetica degli LLM non è allineata con i principi definiti dall'uomo. I nostri risultati indicano che gli attuali LLM si basano sulla memorizzazione di schemi piuttosto che su un apprendimento genuino delle regole, evidenziando limitazioni architetturali e la necessità di nuovi approcci per raggiungere un vero ragionamento matematico.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition (0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and compositional generalization (via isomorphic symbolic mappings, e.g., 7 rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to leq7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of A+B neq B+A) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

Summary

AI-Generated Summary

PDF96April 14, 2025