Wiskundige Neurochirurgie: Het isoleren van de wiskundige redeneervaardigheden van taalmodellen met enkel voorwaartse passes
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Auteurs: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Samenvatting
Wiskundig redeneren is een zeer actief onderzoeksgebied binnen Large Language Models (LLM) omdat het een kenmerk is van kunstmatige intelligentie. Er zijn echter weinig werken die hebben onderzocht hoe wiskundig redeneren wordt gecodeerd binnen de parameters van LLM's en of het een vaardigheid is die geïsoleerd kan worden binnen een model. Door dit te doen, zou gerichte interventie mogelijk zijn om de wiskundige prestaties te verbeteren zonder niet-wiskundig gedrag te veranderen en om inzicht te krijgen in hoe modellen wiskundig redeneren coderen. We introduceren Math Neurochirurgie (MathNeuro), een methode om wiskunde-specifieke parameters in LLM's te isoleren met behulp van alleen voorwaartse passes. MathNeuro bouwt voort op bestaand werk door gewichten en activaties te gebruiken om de belangrijkheid van parameters te berekenen, maar isoleert wiskunde-specifieke parameters door die belangrijk zijn voor algemene taak in taal te verwijderen. Het snoeien van parameters die MathNeuro identificeert, verwijdert de wiskundige redeneervaardigheid van een LLM zonder de algemene taalvaardigheid te vernietigen. Het schalen van deze parameters met een kleine constante verbetert de prestaties van een vooraf getraind of instructie-aangepast LLM met 4-17% op GSM8K, terwijl niet-wiskundig gedrag onveranderd blijft. MathNeuro is ook data-efficiënt: het grootste deel van de effectiviteit blijft behouden bij het identificeren van wiskunde-specifieke parameters met behulp van een enkel voorbeeld. MathNeuro benadrukt het potentieel voor toekomstig werk om in te grijpen op wiskunde-specifieke parameters.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary