수학 신경외과: 언어 모델의 수학 추론 능력을 순방향 패스만 사용하여 분리하기
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
저자: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
초록
수학 추론은 인공지능의 상징적인 특징이기 때문에 대규모 언어 모델 (LLM) 연구의 매우 활발한 분야입니다. 그러나 수학 추론이 LLM 매개변수 내에 어떻게 인코딩되는지, 그리고 모델 내에서 분리할 수 있는 기술인지에 대해 탐구한 연구는 거의 없습니다. 이를 통해 수학 성능을 개선하는 데 특정 개입을 허용하고 비수학 행동을 변경하지 않고 수학 추론을 어떻게 인코딩하는지에 대한 이해를 촉진할 수 있습니다. 우리는 MathNeuro(수학 신경외과)라는 LLM에서 수학 특정 매개변수를 분리하는 방법을 소개합니다. MathNeuro는 단순히 전방 전파만 사용하여 수학 특정 매개변수를 분리하는 방법입니다. MathNeuro는 가중치와 활성화를 사용하여 매개변수 중요도를 계산하는 기존 작업을 기반으로 하지만 일반 언어 작업에 중요한 매개변수를 제거함으로써 수학 특정 매개변수를 분리합니다. MathNeuro가 식별한 가지치기 매개변수는 LLM의 수학 추론 능력을 파괴하지 않고 일반 언어 능력을 유지한 채 삭제됩니다. 이러한 매개변수를 작은 상수로 스케일링하면 사전 훈련된 또는 지시에 맞게 조정된 LLM의 성능을 GSM8K에서 4-17% 향상시킬 수 있습니다. MathNeuro는 데이터 효율적입니다. 대부분의 효과는 단일 샘플을 사용하여 수학 특정 매개변수를 식별할 때 유지됩니다. MathNeuro는 미래 작업이 수학 특정 매개변수에 개입할 수 있는 잠재력을 강조합니다.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary