Wiskundige Neurochirurgie: Het isoleren van de wiskundige redeneervaardigheden van taalmodellen met enkel voorwaartse passes

Samenvatting

Wiskundig redeneren is een zeer actief onderzoeksgebied binnen Large Language Models (LLM) omdat het een kenmerk is van kunstmatige intelligentie. Er zijn echter weinig werken die hebben onderzocht hoe wiskundig redeneren wordt gecodeerd binnen de parameters van LLM's en of het een vaardigheid is die geïsoleerd kan worden binnen een model. Door dit te doen, zou gerichte interventie mogelijk zijn om de wiskundige prestaties te verbeteren zonder niet-wiskundig gedrag te veranderen en om inzicht te krijgen in hoe modellen wiskundig redeneren coderen. We introduceren Math Neurochirurgie (MathNeuro), een methode om wiskunde-specifieke parameters in LLM's te isoleren met behulp van alleen voorwaartse passes. MathNeuro bouwt voort op bestaand werk door gewichten en activaties te gebruiken om de belangrijkheid van parameters te berekenen, maar isoleert wiskunde-specifieke parameters door die belangrijk zijn voor algemene taak in taal te verwijderen. Het snoeien van parameters die MathNeuro identificeert, verwijdert de wiskundige redeneervaardigheid van een LLM zonder de algemene taalvaardigheid te vernietigen. Het schalen van deze parameters met een kleine constante verbetert de prestaties van een vooraf getraind of instructie-aangepast LLM met 4-17% op GSM8K, terwijl niet-wiskundig gedrag onveranderd blijft. MathNeuro is ook data-efficiënt: het grootste deel van de effectiviteit blijft behouden bij het identificeren van wiskunde-specifieke parameters met behulp van een enkel voorbeeld. MathNeuro benadrukt het potentieel voor toekomstig werk om in te grijpen op wiskunde-specifieke parameters.

English

Math reasoning is a highly active area of Large Language Model (LLM) research because it is a hallmark of artificial intelligence. However, few works have explored how math reasoning is encoded within LLM parameters and if it is a skill that can be isolated within a model. Doing so could allow targeted intervention to improve math performance without altering non-math behavior and foster understanding of how models encode math reasoning. We introduce Math Neurosurgery (MathNeuro), a method for isolating math-specific parameters in LLMs using only forward passes. MathNeuro builds on existing work by using weights and activations to calculate parameter importance, but isolates math-specific parameters by removing those important for general language tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning ability without destroying its general language ability. Scaling these parameters by a small constant improves a pretrained or instruction-tuned LLM's performance by 4-17% on GSM8K while leaving non-math behavior unaltered. MathNeuro is also data efficient: most of its effectiveness holds when identifying math-specific parameters using a single sample. MathNeuro highlights the potential for future work to intervene on math-specific parameters.

Wiskundige Neurochirurgie: Het isoleren van de wiskundige redeneervaardigheden van taalmodellen met enkel voorwaartse passes

Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Samenvatting

Support