I grandi modelli linguistici possono auto-migliorarsi nel ragionamento a lungo contesto.
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Autori: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno ottenuto progressi sostanziali nel trattamento di contesti lunghi, ma faticano ancora con il ragionamento a lungo contesto. Gli approcci esistenti coinvolgono tipicamente il raffinamento dei LLM con dati sintetici, che dipendono da annotazioni di esperti umani o modelli avanzati come il GPT-4, limitando così ulteriori progressi. Per affrontare questo problema, esaminiamo il potenziale dei LLM di auto-migliorarsi nel ragionamento a lungo contesto e proponiamo \ours, un approccio appositamente progettato per questo scopo. Questo approccio è diretto: campioniamo più output per ogni domanda, li valutiamo con il Rischio Minimo di Bayes, e quindi applichiamo un raffinamento supervisionato o un'ottimizzazione delle preferenze basata su questi output. Estesi esperimenti su diversi principali LLM dimostrano l'efficacia di \ours, con un miglioramento assoluto di 4,2 punti per Llama-3.1-8B-Instruct. Inoltre, \ours raggiunge prestazioni superiori rispetto agli approcci precedenti che dipendono da dati prodotti da esperti umani o modelli avanzati. Prevediamo che questo lavoro aprirà nuove vie per le tecniche di auto-miglioramento in scenari a lungo contesto, essenziali per il continuo avanzamento dei LLM.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.Summary
AI-Generated Summary