Taalmodellen zijn symbolische leerlingen in de rekenkunde.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Auteurs: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worden verondersteld moeite te hebben met het leren van rekenkunde vanwege de inherente verschillen tussen taalmodellering en numerieke berekeningen, maar concrete bewijzen ontbraken. Dit werk reageert op deze bewering door middel van een tweezijdig experiment. We onderzoeken eerst of LLM's gedeeltelijke producten benutten tijdens het leren van rekenkunde. We ontdekken dat hoewel LLM's enkele gedeeltelijke producten kunnen identificeren na het leren, ze er niet in slagen om ze te benutten voor rekenkundige taken, integendeel. Vervolgens verkennen we hoe LLM's rekenkundig benaderen door taken op te delen in subgroepen, waarbij we veronderstellen dat moeilijkheden voortkomen uit subgroepcomplexiteit en selectie. Onze resultaten tonen aan dat wanneer subgroepcomplexiteit constant is, LLM's een verzameling verschillende rekenkundige bewerkingen op een vergelijkbare manier behandelen. Door de nauwkeurigheid op positienniveau te analyseren over verschillende trainingsgroottes, observeren we verder dat dit een U-vormig patroon volgt: LLM's leren snel de gemakkelijkste patronen op de eerste en laatste posities, terwijl ze geleidelijk de moeilijkere patronen leren op de middelste posities. Dit suggereert dat LLM's subgroepen selecteren volgens een gemakkelijk-naar-moeilijk paradigma tijdens het leren. Ons werk bevestigt dat LLM's puur symbolische leerlingen zijn in rekenkundige taken en benadrukt het belang van een diepgaand begrip van hen door middel van kwantificering op subgroepniveau.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary