Mathematische Neurochirurgie: Isolierung der mathematischen Denkfähigkeiten von Sprachmodellen ausschließlich durch Vorwärtspässe

Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

October 22, 2024
Autoren: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI

Zusammenfassung

Mathematisches Denken ist ein äußerst aktiver Bereich der Forschung zu Large Language Models (LLMs), da es ein Kennzeichen der künstlichen Intelligenz ist. Allerdings haben nur wenige Arbeiten untersucht, wie mathematisches Denken innerhalb der LLM-Parameter codiert ist und ob es sich um eine isolierbare Fähigkeit innerhalb eines Modells handelt. Dies zu tun könnte gezielte Interventionen ermöglichen, um die mathematische Leistung zu verbessern, ohne das nicht-mathematische Verhalten zu verändern, und das Verständnis dafür fördern, wie Modelle mathematisches Denken codieren. Wir stellen Mathematische Neurochirurgie (MathNeuro) vor, eine Methode zur Isolierung mathematischer Parameter in LLMs, die nur Vorwärtsdurchläufe verwendet. MathNeuro baut auf bestehenden Arbeiten auf, indem es Gewichte und Aktivierungen verwendet, um die Bedeutung der Parameter zu berechnen, isoliert jedoch mathematische Parameter, indem es jene entfernt, die wichtig für allgemeine Sprachaufgaben sind. Das Beschneiden der Parameter, das MathNeuro identifiziert, löscht die mathematische Denkfähigkeit eines LLMs, ohne seine allgemeine Sprachfähigkeit zu zerstören. Das Skalieren dieser Parameter um eine kleine Konstante verbessert die Leistung eines vortrainierten oder instruktionsangepassten LLMs um 4-17% auf GSM8K, während das nicht-mathematische Verhalten unverändert bleibt. MathNeuro ist auch dateneffizient: Der Großteil seiner Wirksamkeit bleibt bestehen, wenn mathematische spezifische Parameter anhand einer einzigen Probe identifiziert werden. MathNeuro verdeutlicht das Potenzial für zukünftige Arbeiten, auf mathematische spezifische Parameter einzuwirken.
English
Math reasoning is a highly active area of Large Language Model (LLM) research because it is a hallmark of artificial intelligence. However, few works have explored how math reasoning is encoded within LLM parameters and if it is a skill that can be isolated within a model. Doing so could allow targeted intervention to improve math performance without altering non-math behavior and foster understanding of how models encode math reasoning. We introduce Math Neurosurgery (MathNeuro), a method for isolating math-specific parameters in LLMs using only forward passes. MathNeuro builds on existing work by using weights and activations to calculate parameter importance, but isolates math-specific parameters by removing those important for general language tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning ability without destroying its general language ability. Scaling these parameters by a small constant improves a pretrained or instruction-tuned LLM's performance by 4-17% on GSM8K while leaving non-math behavior unaltered. MathNeuro is also data efficient: most of its effectiveness holds when identifying math-specific parameters using a single sample. MathNeuro highlights the potential for future work to intervene on math-specific parameters.

Summary

AI-Generated Summary

PDF52November 16, 2024