Les modèles de langage sont des raisonneurs cachés : débloquer les capacités de raisonnement latent via l'auto-récompense
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Auteurs: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Résumé
Les grands modèles de langage (GML) ont montré des capacités impressionnantes, mais rencontrent encore des difficultés avec les tâches de raisonnement complexe nécessitant plusieurs étapes. Alors que les méthodes basées sur des instructions comme la Chaîne de Pensée (CoT) peuvent améliorer le raisonnement des GML au moment de l'inférence, l'optimisation des capacités de raisonnement pendant l'entraînement reste un défi. Nous introduisons l'Optimisation du Raisonnement Latent (LaTRO), un cadre fondé qui formule le raisonnement comme un échantillonnage à partir d'une distribution latente et l'optimise via des approches variationnelles. LaTRO permet aux GML d'améliorer simultanément leur processus de raisonnement et leur capacité à évaluer la qualité du raisonnement, sans nécessiter de modèles de rétroaction ou de récompense externes. Nous validons LaTRO à travers des expériences sur les ensembles de données GSM8K et ARC-Challenge en utilisant plusieurs architectures de modèles. Sur GSM8K, LaTRO améliore la précision en zéro-shot de manière moyenne de 12,5 % par rapport aux modèles de base et de 9,6 % par rapport au fine-tuning supervisé à travers Phi-3.5-mini, Mistral-7B et Llama-3.1-8B. Nos résultats suggèrent que les GML pré-entraînés possèdent des capacités de raisonnement latentes qui peuvent être débloquées et améliorées grâce à notre approche d'optimisation proposée de manière auto-améliorante. Le code de LaTRO est disponible sur https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.Summary
AI-Generated Summary