Les modèles de langage sont des raisonneurs cachés : débloquer les capacités de raisonnement latent via l'auto-récompense

Résumé

Les grands modèles de langage (GML) ont montré des capacités impressionnantes, mais rencontrent encore des difficultés avec les tâches de raisonnement complexe nécessitant plusieurs étapes. Alors que les méthodes basées sur des instructions comme la Chaîne de Pensée (CoT) peuvent améliorer le raisonnement des GML au moment de l'inférence, l'optimisation des capacités de raisonnement pendant l'entraînement reste un défi. Nous introduisons l'Optimisation du Raisonnement Latent (LaTRO), un cadre fondé qui formule le raisonnement comme un échantillonnage à partir d'une distribution latente et l'optimise via des approches variationnelles. LaTRO permet aux GML d'améliorer simultanément leur processus de raisonnement et leur capacité à évaluer la qualité du raisonnement, sans nécessiter de modèles de rétroaction ou de récompense externes. Nous validons LaTRO à travers des expériences sur les ensembles de données GSM8K et ARC-Challenge en utilisant plusieurs architectures de modèles. Sur GSM8K, LaTRO améliore la précision en zéro-shot de manière moyenne de 12,5 % par rapport aux modèles de base et de 9,6 % par rapport au fine-tuning supervisé à travers Phi-3.5-mini, Mistral-7B et Llama-3.1-8B. Nos résultats suggèrent que les GML pré-entraînés possèdent des capacités de raisonnement latentes qui peuvent être débloquées et améliorées grâce à notre approche d'optimisation proposée de manière auto-améliorante. Le code de LaTRO est disponible sur https://github.com/SalesforceAIResearch/LaTRO.

English

Large language models (LLMs) have shown impressive capabilities, but still struggle with complex reasoning tasks requiring multiple steps. While prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at inference time, optimizing reasoning capabilities during training remains challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled framework that formulates reasoning as sampling from a latent distribution and optimizes it via variational approaches. LaTRO enables LLMs to concurrently improve both their reasoning process and ability to evaluate reasoning quality, without requiring external feedback or reward models. We validate LaTRO through experiments on GSM8K and ARC-Challenge datasets using multiple model architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of 12.5% over base models and 9.6% over supervised fine-tuning across Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that pre-trained LLMs possess latent reasoning capabilities that can be unlocked and enhanced through our proposed optimization approach in a self-improvement manner. The code of LaTRO is available at https://github.com/SalesforceAIResearch/LaTRO.

Les modèles de langage sont des raisonneurs cachés : débloquer les capacités de raisonnement latent via l'auto-récompense

Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Résumé

Summary

Support