I Modelli Linguistici sono Apprendisti Simbolici in Aritmetica
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Autori: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Abstract
I Grandi Modelli Linguistici (LLM) sono ritenuti avere difficoltà nell'apprendimento dell'aritmetica a causa delle differenze intrinseche tra la modellazione del linguaggio e il calcolo numerico, ma finora mancavano prove concrete. Questo lavoro risponde a questa affermazione attraverso un esperimento a due lati. Prima indaghiamo se i LLM sfruttino i prodotti parziali durante l'apprendimento dell'aritmetica. Scopriamo che sebbene i LLM possano identificare alcuni prodotti parziali dopo l'apprendimento, non riescono a sfruttarli per compiti aritmetici, al contrario. Esploriamo poi come i LLM affrontino l'aritmetica in modo simbolico suddividendo i compiti in sottogruppi, ipotizzando che le difficoltà derivino dalla complessità e dalla selezione dei sottogruppi. I nostri risultati mostrano che quando la complessità dei sottogruppi è fissata, i LLM trattano una serie di diverse operazioni aritmetiche in modo simile. Analizzando l'accuratezza a livello di posizione attraverso diverse dimensioni di addestramento, osserviamo inoltre che segue un modello a forma di U: i LLM imparano rapidamente i modelli più facili nelle prime e ultime posizioni, mentre imparano progressivamente i modelli più difficili nelle posizioni centrali. Questo suggerisce che i LLM selezionano i sottogruppi seguendo un paradigma da facile a difficile durante l'apprendimento. Il nostro lavoro conferma che i LLM sono apprendisti puramente simbolici nei compiti aritmetici e sottolinea l'importanza di comprenderli a fondo attraverso una quantificazione a livello di sottogruppo.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary