언어 모델은 산술에서의 기호학습자입니다.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
저자: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
초록
대형 언어 모델(LLMs)은 언어 모델링과 숫자 계산 사이의 본질적인 차이 때문에 산술 학습에 어려움을 겪는 것으로 여겨지지만, 구체적인 증거가 부족했습니다. 본 연구는 이 주장에 대한 응답으로 양면 실험을 통해 이를 다룹니다. 우리는 먼저 LLMs가 산술 학습 중에 부분 곱셈을 활용하는지 조사합니다. 우리는 LLMs가 일부 부분 곱셈을 학습 후에 식별할 수 있지만, 이를 산술 작업에 활용하는 데 실패한다는 것을 발견했습니다. 그런데 우리는 LLMs가 산술을 상징적으로 다루는 방식을 탐구하며 작업을 하위 그룹으로 분할하여 어려움이 하위 그룹 복잡성과 선택에서 발생한다는 가설을 세웁니다. 우리의 결과는 하위 그룹 복잉성이 고정될 때, LLMs가 다양한 산술 작업 집합을 유사하게 처리한다는 것을 보여줍니다. 다양한 교육 크기에 걸쳐 위치 수준의 정확도를 분석함으로써, 우리는 그것이 U자형 패턴을 따른다는 것을 더 관찰합니다: LLMs는 첫 번째와 마지막 위치에서 가장 쉬운 패턴을 빠르게 학습하면서, 중간 위치에서 더 어려운 패턴을 점진적으로 학습합니다. 이는 LLMs가 학습 중에 쉬운 것에서 어려운 것으로 따르는 하위 그룹 선택 패러다임을 시사합니다. 우리의 연구는 LLMs가 산술 작업에서 순수한 상징적 학습자임을 확인하며 하위 그룹 수준의 양적 분석을 통해 그들을 심층적으로 이해하는 중요성을 강조합니다.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary