Mathematische Neurochirurgie: Isolierung der mathematischen Denkfähigkeiten von Sprachmodellen ausschließlich durch Vorwärtspässe
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Autoren: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Zusammenfassung
Mathematisches Denken ist ein äußerst aktiver Bereich der Forschung zu Large Language Models (LLMs), da es ein Kennzeichen der künstlichen Intelligenz ist. Allerdings haben nur wenige Arbeiten untersucht, wie mathematisches Denken innerhalb der LLM-Parameter codiert ist und ob es sich um eine isolierbare Fähigkeit innerhalb eines Modells handelt. Dies zu tun könnte gezielte Interventionen ermöglichen, um die mathematische Leistung zu verbessern, ohne das nicht-mathematische Verhalten zu verändern, und das Verständnis dafür fördern, wie Modelle mathematisches Denken codieren. Wir stellen Mathematische Neurochirurgie (MathNeuro) vor, eine Methode zur Isolierung mathematischer Parameter in LLMs, die nur Vorwärtsdurchläufe verwendet. MathNeuro baut auf bestehenden Arbeiten auf, indem es Gewichte und Aktivierungen verwendet, um die Bedeutung der Parameter zu berechnen, isoliert jedoch mathematische Parameter, indem es jene entfernt, die wichtig für allgemeine Sprachaufgaben sind. Das Beschneiden der Parameter, das MathNeuro identifiziert, löscht die mathematische Denkfähigkeit eines LLMs, ohne seine allgemeine Sprachfähigkeit zu zerstören. Das Skalieren dieser Parameter um eine kleine Konstante verbessert die Leistung eines vortrainierten oder instruktionsangepassten LLMs um 4-17% auf GSM8K, während das nicht-mathematische Verhalten unverändert bleibt. MathNeuro ist auch dateneffizient: Der Großteil seiner Wirksamkeit bleibt bestehen, wenn mathematische spezifische Parameter anhand einer einzigen Probe identifiziert werden. MathNeuro verdeutlicht das Potenzial für zukünftige Arbeiten, auf mathematische spezifische Parameter einzuwirken.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary