La pazienza è la chiave per il ragionamento dei grandi modelli linguistici.
Patience Is The Key to Large Language Model Reasoning
November 20, 2024
Autori: Yijiong Yu
cs.AI
Abstract
Gli avanzamenti recenti nel campo dei grandi modelli linguistici, in particolare attraverso l'approccio Chain of Thought (CoT), hanno dimostrato miglioramenti significativi nella risoluzione di problemi complessi. Tuttavia, i modelli esistenti tendono o a sacrificare il ragionamento dettagliato per la concisione a causa delle preferenze dell'utente, o richiedono dati di addestramento estesi e costosi per apprendere capacità di ragionamento complesse, limitando il loro potenziale nella risoluzione di compiti complessi. Per colmare questa lacuna, seguendo il concetto di scalare il test temporale, proponiamo un metodo semplice incoraggiando i modelli ad adottare uno stile di ragionamento più paziente senza la necessità di introdurre nuove conoscenze o abilità. Per impiegare un approccio di ottimizzazione delle preferenze, generiamo processi di ragionamento dettagliati come esempi positivi e risposte semplici come esempi negativi, addestrando così il modello a favorire la completezza nelle sue risposte. I nostri risultati dimostrano un aumento delle prestazioni fino al 6,7% su GSM8k addestrando solo su un dataset leggero.
English
Recent advancements in the field of large language models, particularly
through the Chain of Thought (CoT) approach, have demonstrated significant
improvements in solving complex problems. However, existing models either tend
to sacrifice detailed reasoning for brevity due to user preferences, or require
extensive and expensive training data to learn complicated reasoning ability,
limiting their potential in solving complex tasks. To bridge this gap,
following the concept of scaling test-time, we propose a simple method by
encouraging models to adopt a more patient reasoning style without the need of
introducing new knowledge or skills. To employ a preference optimization
approach, we generate detailed reasoning processes as positive examples and
simple answers as negative examples, thereby training the model to favor
thoroughness in its responses. Our results demonstrate a performance increase
of up to 6.7% on GSM8k with training just on a lightweight dataset.Summary
AI-Generated Summary