Geduld ist der Schlüssel zur Argumentation großer Sprachmodell.
Patience Is The Key to Large Language Model Reasoning
November 20, 2024
Autoren: Yijiong Yu
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte auf dem Gebiet großer Sprachmodelle, insbesondere durch den Ansatz der Gedankenkette (CoT), signifikante Verbesserungen bei der Lösung komplexer Probleme gezeigt. Allerdings neigen bestehende Modelle entweder dazu, detaillierte Argumentation zugunsten der Kürze aufzugeben, aufgrund von Benutzerpräferenzen, oder sie erfordern umfangreiche und teure Trainingsdaten, um eine komplexe Argumentationsfähigkeit zu erlernen, was ihr Potenzial bei der Lösung komplexer Aufgaben einschränkt. Um diese Lücke zu überbrücken, schlagen wir im Sinne des Skalierens zur Testzeit eine einfache Methode vor, indem wir Modelle ermutigen, einen geduldigeren Argumentationsstil anzunehmen, ohne neue Kenntnisse oder Fähigkeiten einzuführen. Durch die Anwendung eines Präferenzoptimierungsansatzes generieren wir detaillierte Argumentationsprozesse als positive Beispiele und einfache Antworten als negative Beispiele, wodurch das Modell darauf trainiert wird, Gründlichkeit in seinen Antworten zu bevorzugen. Unsere Ergebnisse zeigen eine Leistungssteigerung von bis zu 6,7% bei GSM8k, wobei das Training nur auf einem leichtgewichtigen Datensatz erfolgte.
English
Recent advancements in the field of large language models, particularly
through the Chain of Thought (CoT) approach, have demonstrated significant
improvements in solving complex problems. However, existing models either tend
to sacrifice detailed reasoning for brevity due to user preferences, or require
extensive and expensive training data to learn complicated reasoning ability,
limiting their potential in solving complex tasks. To bridge this gap,
following the concept of scaling test-time, we propose a simple method by
encouraging models to adopt a more patient reasoning style without the need of
introducing new knowledge or skills. To employ a preference optimization
approach, we generate detailed reasoning processes as positive examples and
simple answers as negative examples, thereby training the model to favor
thoroughness in its responses. Our results demonstrate a performance increase
of up to 6.7% on GSM8k with training just on a lightweight dataset.Summary
AI-Generated Summary