Geduld is de sleutel tot redeneren van grote taalmodellen.
Patience Is The Key to Large Language Model Reasoning
November 20, 2024
Auteurs: Yijiong Yu
cs.AI
Samenvatting
Recente ontwikkelingen op het gebied van grote taalmodellen, met name via de Chain of Thought (CoT) benadering, hebben significante verbeteringen aangetoond in het oplossen van complexe problemen. Bestaande modellen neigen echter ofwel gedetailleerd redeneren op te offeren voor bondigheid vanwege de voorkeuren van gebruikers, of vereisen uitgebreide en dure trainingsgegevens om ingewikkelde redeneervaardigheden aan te leren, waardoor hun potentieel om complexe taken op te lossen beperkt wordt. Om deze kloof te overbruggen, stellen we, in navolging van het concept van schaalvergroting op testtijd, een eenvoudige methode voor door modellen aan te moedigen een geduldiger redeneerstijl aan te nemen zonder de noodzaak om nieuwe kennis of vaardigheden te introduceren. Om een voorkeursoptimalisatiebenadering toe te passen, genereren we gedetailleerde redeneerprocessen als positieve voorbeelden en eenvoudige antwoorden als negatieve voorbeelden, waardoor het model getraind wordt om grondigheid in zijn antwoorden te verkiezen. Onze resultaten tonen een prestatieverhoging tot 6,7% op GSM8k aan met enkel training op een lichtgewicht dataset.
English
Recent advancements in the field of large language models, particularly
through the Chain of Thought (CoT) approach, have demonstrated significant
improvements in solving complex problems. However, existing models either tend
to sacrifice detailed reasoning for brevity due to user preferences, or require
extensive and expensive training data to learn complicated reasoning ability,
limiting their potential in solving complex tasks. To bridge this gap,
following the concept of scaling test-time, we propose a simple method by
encouraging models to adopt a more patient reasoning style without the need of
introducing new knowledge or skills. To employ a preference optimization
approach, we generate detailed reasoning processes as positive examples and
simple answers as negative examples, thereby training the model to favor
thoroughness in its responses. Our results demonstrate a performance increase
of up to 6.7% on GSM8k with training just on a lightweight dataset.Summary
AI-Generated Summary