I modelli linguistici di livello PhD comprendono davvero l'addizione elementare? Esplorando l'apprendimento di regole rispetto alla memorizzazione nei grandi modelli linguistici
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
April 7, 2025
Autori: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
cs.AI
Abstract
Nonostante i punteggi elevati nei benchmark, i Large Language Models (LLM) spesso falliscono in problemi semplici, sollevando una questione critica: gli LLM apprendono i principi matematici o si limitano a memorizzare schemi? Piuttosto che progettare benchmark sempre più complessi come nei lavori recenti, investigiamo questo aspetto utilizzando l'addizione elementare di due numeri interi (da 0 a 2^{64}), esaminando due proprietà fondamentali: la commutatività (A+B=B+A) e la generalizzazione composizionale (tramite mappature simboliche isomorfe, ad esempio, 7 → y). Mentre gli LLM all'avanguardia raggiungono un'accuratezza del 73,8-99,8% nell'addizione numerica, le prestazioni crollano a ≤7,5% sotto mappatura simbolica, indicando un fallimento nella generalizzazione delle regole apprese. La scalatura non monotona delle prestazioni con il numero di cifre e le frequenti violazioni della commutatività (oltre 1.700 casi di A+B ≠ B+A) supportano ulteriormente questa conclusione. Fornire esplicitamente le regole di addizione riduce le prestazioni in media dell'81,2%, mentre l'auto-spiegazione mantiene l'accuratezza di base, suggerendo che l'elaborazione aritmetica degli LLM non è allineata con i principi definiti dall'uomo. I nostri risultati indicano che gli attuali LLM si basano sulla memorizzazione di schemi piuttosto che su un apprendimento genuino delle regole, evidenziando limitazioni architetturali e la necessità di nuovi approcci per raggiungere un vero ragionamento matematico.
English
Despite high benchmark scores, Large Language Models (LLMs) often fail simple
problem, raising a critical question: Do LLMs learn mathematical principles or
merely memorize patterns? Rather than designing increasingly complex benchmarks
like recent works, we investigate this using elementary two-integer addition
(0 to 2^{64}), probing two core properties: commutativity (A+B=B+A) and
compositional generalization (via isomorphic symbolic mappings, e.g., 7
rightarrow y). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on
numerical addition, performance collapses to leq7.5\% under symbolic
mapping, indicating failure to generalize learned rules. Non-monotonic
performance scaling with digit count and frequent commutativity violations
(over 1,700 cases of A+B neq B+A) further support this. Explicitly providing
addition rules degrades performance by 81.2\% on average, while
self-explanation maintains baseline accuracy, suggesting LLM arithmetic
processing is misaligned with human-defined principles. Our findings indicate
current LLMs rely on memory pattern over genuine rule learning, highlighting
architectural limitations and the need for new approaches to achieve true
mathematical reasoning.Summary
AI-Generated Summary