I Modelli Linguistici sono Ragionatori Nascosti: Sbloccare le Capacità di Ragionamento Latente tramite l'Auto-Ricompensa
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Autori: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità impressionanti, ma faticano ancora con compiti di ragionamento complessi che richiedono più passaggi. Mentre i metodi basati su prompt come Chain-of-Thought (CoT) possono migliorare il ragionamento dei LLM durante l'inferenza, ottimizzare le capacità di ragionamento durante l'addestramento rimane una sfida. Presentiamo LaTent Reasoning Optimization (LaTRO), un framework basato su principi che formula il ragionamento come campionamento da una distribuzione latente e lo ottimizza tramite approcci variazionali. LaTRO consente ai LLM di migliorare contemporaneamente sia il loro processo di ragionamento che la capacità di valutare la qualità del ragionamento, senza richiedere feedback esterni o modelli di ricompensa. Convalidiamo LaTRO attraverso esperimenti sui set di dati GSM8K e ARC-Challenge utilizzando diverse architetture di modelli. Su GSM8K, LaTRO migliora l'accuratezza a zero-shot di una media del 12,5% rispetto ai modelli di base e del 9,6% rispetto al fine-tuning supervisionato attraverso Phi-3.5-mini, Mistral-7B e Llama-3.1-8B. I nostri risultati suggeriscono che i LLM preaddestrati possiedono capacità di ragionamento latenti che possono essere sbloccate e potenziate attraverso il nostro approccio di ottimizzazione proposto in modo di auto-miglioramento. Il codice di LaTRO è disponibile su https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.Summary
AI-Generated Summary