Geduld is de sleutel tot redeneren van grote taalmodellen.

Samenvatting

Recente ontwikkelingen op het gebied van grote taalmodellen, met name via de Chain of Thought (CoT) benadering, hebben significante verbeteringen aangetoond in het oplossen van complexe problemen. Bestaande modellen neigen echter ofwel gedetailleerd redeneren op te offeren voor bondigheid vanwege de voorkeuren van gebruikers, of vereisen uitgebreide en dure trainingsgegevens om ingewikkelde redeneervaardigheden aan te leren, waardoor hun potentieel om complexe taken op te lossen beperkt wordt. Om deze kloof te overbruggen, stellen we, in navolging van het concept van schaalvergroting op testtijd, een eenvoudige methode voor door modellen aan te moedigen een geduldiger redeneerstijl aan te nemen zonder de noodzaak om nieuwe kennis of vaardigheden te introduceren. Om een voorkeursoptimalisatiebenadering toe te passen, genereren we gedetailleerde redeneerprocessen als positieve voorbeelden en eenvoudige antwoorden als negatieve voorbeelden, waardoor het model getraind wordt om grondigheid in zijn antwoorden te verkiezen. Onze resultaten tonen een prestatieverhoging tot 6,7% op GSM8k aan met enkel training op een lichtgewicht dataset.

English

Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 6.7% on GSM8k with training just on a lightweight dataset.

Geduld is de sleutel tot redeneren van grote taalmodellen.

Patience Is The Key to Large Language Model Reasoning

Samenvatting

Support