Taalmodellen zijn verborgen redeneerders: Latente redeneervaardigheden ontsluiten via zelfbeloning.
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Auteurs: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben indrukwekkende capaciteiten getoond, maar worstelen nog steeds met complexe redeneertaken die meerdere stappen vereisen. Terwijl opdrachtgestuurde methoden zoals Chain-of-Thought (CoT) de redeneervaardigheid van LLM's tijdens inferentie kunnen verbeteren, blijft het optimaliseren van redeneercapaciteiten tijdens training een uitdaging. We introduceren LaTent Reasoning Optimization (LaTRO), een principieel kader dat redeneren formuleert als het monsteren uit een latente distributie en dit optimaliseert via variationale benaderingen. LaTRO stelt LLM's in staat om tegelijkertijd zowel hun redeneerproces als hun vermogen om redeneerkwaliteit te evalueren te verbeteren, zonder externe feedback of beloningsmodellen te vereisen. We valideren LaTRO via experimenten op de GSM8K- en ARC-Challenge-datasets met behulp van meerdere modelarchitecturen. Op GSM8K verbetert LaTRO de zero-shot nauwkeurigheid gemiddeld met 12,5% ten opzichte van basismodellen en met 9,6% ten opzichte van begeleid fine-tunen over Phi-3.5-mini, Mistral-7B en Llama-3.1-8B. Onze bevindingen suggereren dat vooraf getrainde LLM's latente redeneervermogens bezitten die kunnen worden ontsloten en verbeterd via onze voorgestelde optimalisatiebenadering op een zelfverbeterende manier. De code van LaTRO is beschikbaar op https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.Summary
AI-Generated Summary