Les grands modèles de langage peuvent s'améliorer par auto-apprentissage dans le raisonnement à longue portée.

Résumé

Les grands modèles de langage (LLM) ont réalisé des progrès substantiels dans le traitement de longs contextes, mais rencontrent encore des difficultés en matière de raisonnement sur de longs contextes. Les approches existantes impliquent généralement le fine-tuning des LLM avec des données synthétiques, qui dépendent d'annotations d'experts humains ou de modèles avancés comme le GPT-4, limitant ainsi les avancées ultérieures. Pour résoudre ce problème, nous étudions le potentiel d'amélioration automatique des LLM en matière de raisonnement sur de longs contextes et proposons \textit{notre approche}, spécifiquement conçue à cet effet. Cette approche est simple : nous échantillonnons plusieurs sorties pour chaque question, les évaluons avec le Risque Bayésien Minimum, puis appliquons un fine-tuning supervisé ou une optimisation des préférences basée sur ces sorties. Des expériences approfondies menées sur plusieurs LLM de premier plan démontrent l'efficacité de \textit{notre approche}, avec une amélioration absolue de 4,2 points pour Llama-3.1-8B-Instruct. De plus, \textit{notre approche} obtient des performances supérieures par rapport aux approches antérieures qui dépendent de données produites par des experts humains ou des modèles avancés. Nous anticipons que ce travail ouvrira de nouvelles voies pour les techniques d'auto-amélioration dans des scénarios de longs contextes, essentielles pour l'avancement continu des LLM.

English

Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

Les grands modèles de langage peuvent s'améliorer par auto-apprentissage dans le raisonnement à longue portée.

Large Language Models Can Self-Improve in Long-context Reasoning

Résumé

Summary

Support