Neurochirurgie mathématique : Isoler les capacités de raisonnement mathématique des modèles de langage en n'utilisant que des passes avant.
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
October 22, 2024
Auteurs: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
cs.AI
Résumé
Le raisonnement mathématique est un domaine très actif de la recherche sur les Grands Modèles de Langage (GML) car c'est une caractéristique de l'intelligence artificielle. Cependant, peu d'études ont exploré comment le raisonnement mathématique est encodé dans les paramètres des GML et s'il s'agit d'une compétence pouvant être isolée dans un modèle. Ce faisant, cela pourrait permettre une intervention ciblée pour améliorer les performances en mathématiques sans altérer les comportements non mathématiques et favoriser la compréhension de la manière dont les modèles encodent le raisonnement mathématique. Nous introduisons la Neurochirurgie Mathématique (MathNeuro), une méthode pour isoler les paramètres spécifiques aux mathématiques dans les GML en n'utilisant que des passes avant. MathNeuro s'appuie sur des travaux existants en utilisant les poids et les activations pour calculer l'importance des paramètres, mais isole les paramètres spécifiques aux mathématiques en supprimant ceux importants pour les tâches de langage général. La taille des paramètres que MathNeuro identifie supprime la capacité de raisonnement mathématique d'un GML sans détruire sa capacité de langage général. Mettre à l'échelle ces paramètres par une petite constante améliore les performances d'un GML pré-entraîné ou ajusté par instruction de 4 à 17% sur GSM8K tout en laissant inchangé le comportement non mathématique. MathNeuro est également efficace en termes de données : la majeure partie de son efficacité est maintenue lors de l'identification des paramètres spécifiques aux mathématiques en utilisant un seul échantillon. MathNeuro met en lumière le potentiel des travaux futurs pour intervenir sur les paramètres spécifiques aux mathématiques.
English
Math reasoning is a highly active area of Large Language Model (LLM) research
because it is a hallmark of artificial intelligence. However, few works have
explored how math reasoning is encoded within LLM parameters and if it is a
skill that can be isolated within a model. Doing so could allow targeted
intervention to improve math performance without altering non-math behavior and
foster understanding of how models encode math reasoning. We introduce Math
Neurosurgery (MathNeuro), a method for isolating math-specific parameters in
LLMs using only forward passes. MathNeuro builds on existing work by using
weights and activations to calculate parameter importance, but isolates
math-specific parameters by removing those important for general language
tasks. Pruning parameters MathNeuro identifies deletes a LLM's math reasoning
ability without destroying its general language ability. Scaling these
parameters by a small constant improves a pretrained or instruction-tuned LLM's
performance by 4-17% on GSM8K while leaving non-math behavior unaltered.
MathNeuro is also data efficient: most of its effectiveness holds when
identifying math-specific parameters using a single sample. MathNeuro
highlights the potential for future work to intervene on math-specific
parameters.Summary
AI-Generated Summary