Sprachmodelle sind verborgene Denker: Enthüllung latenter Denkfähigkeiten durch Selbstbelohnung.
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Autoren: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten gezeigt, kämpfen jedoch immer noch mit komplexen Denkaufgaben, die mehrere Schritte erfordern. Während promptbasierte Methoden wie Chain-of-Thought (CoT) die Denkfähigkeit von LLMs zur Inferenzzeit verbessern können, bleibt die Optimierung der Denkfähigkeiten während des Trainings eine Herausforderung. Wir stellen LaTent Reasoning Optimization (LaTRO) vor, ein fundiertes Rahmenwerk, das Denken als Probenahme aus einer latenten Verteilung formuliert und es über variationale Ansätze optimiert. LaTRO ermöglicht es LLMs, sowohl ihren Denkprozess als auch ihre Fähigkeit zur Bewertung der Denkqualität gleichzeitig zu verbessern, ohne externe Rückmeldungen oder Belohnungsmodelle zu benötigen. Wir validieren LaTRO durch Experimente an den Datensätzen GSM8K und ARC-Challenge unter Verwendung mehrerer Modellarchitekturen. Auf GSM8K verbessert LaTRO die Nullschussgenauigkeit im Durchschnitt um 12,5% gegenüber Basismodellen und um 9,6% gegenüber überwachtem Feintuning bei Phi-3.5-mini, Mistral-7B und Llama-3.1-8B. Unsere Ergebnisse legen nahe, dass vorab trainierte LLMs latente Denkfähigkeiten besitzen, die durch unseren vorgeschlagenen Optimierungsansatz auf eine selbstverbessernde Weise freigesetzt und verbessert werden können. Der Code von LaTRO ist verfügbar unter https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.Summary
AI-Generated Summary