Les modèles de langage sont des apprenants symboliques en arithmétique.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Auteurs: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Résumé
Les grands modèles de langage (LLM) sont réputés avoir des difficultés en apprentissage arithmétique en raison des différences inhérentes entre la modélisation linguistique et le calcul numérique, mais des preuves concrètes ont fait défaut. Ce travail répond à cette affirmation à travers une expérience à deux volets. Nous examinons d'abord si les LLM exploitent les produits partiels lors de l'apprentissage arithmétique. Nous constatons que bien que les LLM puissent identifier certains produits partiels après l'apprentissage, ils échouent à les exploiter pour les tâches arithmétiques, au contraire. Ensuite, nous explorons comment les LLM abordent l'arithmétique de manière symbolique en décomposant les tâches en sous-groupes, en émettant l'hypothèse que les difficultés proviennent de la complexité et de la sélection des sous-groupes. Nos résultats montrent que lorsque la complexité des sous-groupes est fixée, les LLM traitent une collection d'opérations arithmétiques différentes de manière similaire. En analysant la précision au niveau de la position pour différentes tailles d'entraînement, nous observons en outre qu'elle suit un schéma en forme de U : les LLM apprennent rapidement les motifs les plus simples aux premières et dernières positions, tout en apprenant progressivement les motifs plus difficiles aux positions intermédiaires. Cela suggère que les LLM sélectionnent les sous-groupes en suivant un paradigme du facile au difficile pendant l'apprentissage. Notre travail confirme que les LLM sont des apprenants purement symboliques dans les tâches arithmétiques et souligne l'importance de les comprendre en profondeur à travers une quantification au niveau des sous-groupes.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary