La patience est la clé du raisonnement des grands modèles de langage.
Patience Is The Key to Large Language Model Reasoning
November 20, 2024
Auteurs: Yijiong Yu
cs.AI
Résumé
Les récents progrès dans le domaine des grands modèles de langage, en particulier grâce à l'approche Chain of Thought (CoT), ont démontré des améliorations significatives dans la résolution de problèmes complexes. Cependant, les modèles existants ont tendance soit à sacrifier un raisonnement détaillé pour la concision en raison des préférences des utilisateurs, soit à nécessiter des données d'entraînement étendues et coûteuses pour apprendre une capacité de raisonnement complexe, limitant ainsi leur potentiel dans la résolution de tâches complexes. Pour combler ce fossé, en suivant le concept de mise à l'échelle au moment du test, nous proposons une méthode simple en encourageant les modèles à adopter un style de raisonnement plus patient sans avoir besoin d'introduire de nouvelles connaissances ou compétences. Pour mettre en œuvre une approche d'optimisation des préférences, nous générons des processus de raisonnement détaillés en tant qu'exemples positifs et des réponses simples en tant qu'exemples négatifs, formant ainsi le modèle à privilégier la minutie dans ses réponses. Nos résultats montrent une augmentation des performances allant jusqu'à 6,7 % sur GSM8k en s'entraînant uniquement sur un jeu de données léger.
English
Recent advancements in the field of large language models, particularly
through the Chain of Thought (CoT) approach, have demonstrated significant
improvements in solving complex problems. However, existing models either tend
to sacrifice detailed reasoning for brevity due to user preferences, or require
extensive and expensive training data to learn complicated reasoning ability,
limiting their potential in solving complex tasks. To bridge this gap,
following the concept of scaling test-time, we propose a simple method by
encouraging models to adopt a more patient reasoning style without the need of
introducing new knowledge or skills. To employ a preference optimization
approach, we generate detailed reasoning processes as positive examples and
simple answers as negative examples, thereby training the model to favor
thoroughness in its responses. Our results demonstrate a performance increase
of up to 6.7% on GSM8k with training just on a lightweight dataset.Summary
AI-Generated Summary