Große Sprachmodelle können sich durch eigenständige Verbesserung in der langen Kontextualisierung von Argumentationen weiterentwickeln.

Zusammenfassung

Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Verarbeitung langer Kontexte erzielt, kämpfen jedoch immer noch mit der Schlussfolgerung bei langen Kontexten. Bestehende Ansätze beinhalten in der Regel das Feintuning von LLMs mit synthetischen Daten, die auf Annotationen von menschlichen Experten oder fortgeschrittenen Modellen wie GPT-4 basieren, was weitere Fortschritte einschränkt. Um dieses Problem anzugehen, untersuchen wir das Potenzial von LLMs zur Selbstverbesserung bei der Schlussfolgerung in langen Kontexten und schlagen \ours vor, einen speziell für diesen Zweck konzipierten Ansatz. Dieser Ansatz ist einfach: Wir probieren mehrere Ausgaben für jede Frage aus, bewerten sie mit dem Minimum Bayes-Risiko und wenden dann überwachtes Feintuning oder Präferenzoptimierung basierend auf diesen Ausgaben an. Umfangreiche Experimente mit mehreren führenden LLMs zeigen die Wirksamkeit von \ours, mit einer absoluten Verbesserung von 4,2 Punkten für Llama-3.1-8B-Instruct. Darüber hinaus erzielt \ours eine überlegene Leistung im Vergleich zu früheren Ansätzen, die auf Daten von menschlichen Experten oder fortgeschrittenen Modellen angewiesen sind. Wir erwarten, dass diese Arbeit neue Wege für Selbstverbesserungstechniken in Szenarien mit langen Kontexten eröffnen wird, die für den kontinuierlichen Fortschritt von LLMs unerlässlich sind.

English

Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

Große Sprachmodelle können sich durch eigenständige Verbesserung in der langen Kontextualisierung von Argumentationen weiterentwickeln.

Large Language Models Can Self-Improve in Long-context Reasoning

Zusammenfassung

Support