Große Sprachmodelle können sich durch eigenständige Verbesserung in der langen Kontextualisierung von Argumentationen weiterentwickeln.
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Autoren: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Verarbeitung langer Kontexte erzielt, kämpfen jedoch immer noch mit der Schlussfolgerung bei langen Kontexten. Bestehende Ansätze beinhalten in der Regel das Feintuning von LLMs mit synthetischen Daten, die auf Annotationen von menschlichen Experten oder fortgeschrittenen Modellen wie GPT-4 basieren, was weitere Fortschritte einschränkt. Um dieses Problem anzugehen, untersuchen wir das Potenzial von LLMs zur Selbstverbesserung bei der Schlussfolgerung in langen Kontexten und schlagen \ours vor, einen speziell für diesen Zweck konzipierten Ansatz. Dieser Ansatz ist einfach: Wir probieren mehrere Ausgaben für jede Frage aus, bewerten sie mit dem Minimum Bayes-Risiko und wenden dann überwachtes Feintuning oder Präferenzoptimierung basierend auf diesen Ausgaben an. Umfangreiche Experimente mit mehreren führenden LLMs zeigen die Wirksamkeit von \ours, mit einer absoluten Verbesserung von 4,2 Punkten für Llama-3.1-8B-Instruct. Darüber hinaus erzielt \ours eine überlegene Leistung im Vergleich zu früheren Ansätzen, die auf Daten von menschlichen Experten oder fortgeschrittenen Modellen angewiesen sind. Wir erwarten, dass diese Arbeit neue Wege für Selbstverbesserungstechniken in Szenarien mit langen Kontexten eröffnen wird, die für den kontinuierlichen Fortschritt von LLMs unerlässlich sind.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.Summary
AI-Generated Summary