Geduld ist der Schlüssel zur Argumentation großer Sprachmodell.

Patience Is The Key to Large Language Model Reasoning

November 20, 2024
Autoren: Yijiong Yu
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte auf dem Gebiet großer Sprachmodelle, insbesondere durch den Ansatz der Gedankenkette (CoT), signifikante Verbesserungen bei der Lösung komplexer Probleme gezeigt. Allerdings neigen bestehende Modelle entweder dazu, detaillierte Argumentation zugunsten der Kürze aufzugeben, aufgrund von Benutzerpräferenzen, oder sie erfordern umfangreiche und teure Trainingsdaten, um eine komplexe Argumentationsfähigkeit zu erlernen, was ihr Potenzial bei der Lösung komplexer Aufgaben einschränkt. Um diese Lücke zu überbrücken, schlagen wir im Sinne des Skalierens zur Testzeit eine einfache Methode vor, indem wir Modelle ermutigen, einen geduldigeren Argumentationsstil anzunehmen, ohne neue Kenntnisse oder Fähigkeiten einzuführen. Durch die Anwendung eines Präferenzoptimierungsansatzes generieren wir detaillierte Argumentationsprozesse als positive Beispiele und einfache Antworten als negative Beispiele, wodurch das Modell darauf trainiert wird, Gründlichkeit in seinen Antworten zu bevorzugen. Unsere Ergebnisse zeigen eine Leistungssteigerung von bis zu 6,7% bei GSM8k, wobei das Training nur auf einem leichtgewichtigen Datensatz erfolgte.
English
Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 6.7% on GSM8k with training just on a lightweight dataset.

Summary

AI-Generated Summary

PDF33November 22, 2024