Les grands modèles de langage peuvent s'améliorer par auto-apprentissage dans le raisonnement à longue portée.
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Auteurs: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Résumé
Les grands modèles de langage (LLM) ont réalisé des progrès substantiels dans le traitement de longs contextes, mais rencontrent encore des difficultés en matière de raisonnement sur de longs contextes. Les approches existantes impliquent généralement le fine-tuning des LLM avec des données synthétiques, qui dépendent d'annotations d'experts humains ou de modèles avancés comme le GPT-4, limitant ainsi les avancées ultérieures. Pour résoudre ce problème, nous étudions le potentiel d'amélioration automatique des LLM en matière de raisonnement sur de longs contextes et proposons \textit{notre approche}, spécifiquement conçue à cet effet. Cette approche est simple : nous échantillonnons plusieurs sorties pour chaque question, les évaluons avec le Risque Bayésien Minimum, puis appliquons un fine-tuning supervisé ou une optimisation des préférences basée sur ces sorties. Des expériences approfondies menées sur plusieurs LLM de premier plan démontrent l'efficacité de \textit{notre approche}, avec une amélioration absolue de 4,2 points pour Llama-3.1-8B-Instruct. De plus, \textit{notre approche} obtient des performances supérieures par rapport aux approches antérieures qui dépendent de données produites par des experts humains ou des modèles avancés. Nous anticipons que ce travail ouvrira de nouvelles voies pour les techniques d'auto-amélioration dans des scénarios de longs contextes, essentielles pour l'avancement continu des LLM.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.Summary
AI-Generated Summary