Sprachmodelle sind symbolische Lernende in der Arithmetik.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Autoren: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben vermutlich Schwierigkeiten mit dem Erlernen von Arithmetik aufgrund der inhärenten Unterschiede zwischen Sprachmodellierung und numerischer Berechnung, aber konkrete Beweise fehlen bisher. Diese Arbeit reagiert auf diese Behauptung durch ein Zwei-Seiten-Experiment. Zunächst untersuchen wir, ob LLMs während des Arithmetiklernens Teilprodukte nutzen. Wir stellen fest, dass LLMs zwar einige Teilprodukte nach dem Lernen identifizieren können, sie jedoch nicht für arithmetische Aufgaben nutzen können. Anschließend erforschen wir, wie LLMs sich symbolisch der Arithmetik nähern, indem wir Aufgaben in Untergruppen aufteilen und vermuten, dass Schwierigkeiten aus der Komplexität und Auswahl der Untergruppen entstehen. Unsere Ergebnisse zeigen, dass LLMs, wenn die Untergruppenkomplexität festgelegt ist, eine Sammlung verschiedener arithmetischer Operationen ähnlich behandeln. Durch die Analyse der Genauigkeit auf Positionsebene bei verschiedenen Trainingsgrößen stellen wir weiter fest, dass sie einem U-förmigen Muster folgt: LLMs lernen schnell die einfachsten Muster an den ersten und letzten Positionen, während sie die schwierigeren Muster in den mittleren Positionen allmählich erlernen. Dies legt nahe, dass LLMs Untergruppen gemäß einem einfach-zu-schwierig-Paradigma während des Lernens auswählen. Unsere Arbeit bestätigt, dass LLMs reine symbolische Lernende bei arithmetischen Aufgaben sind und betont die Bedeutung, sie durch eine Quantifizierung auf Untergruppenebene tiefgehend zu verstehen.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary