I grandi modelli linguistici possono auto-migliorarsi nel ragionamento a lungo contesto.

Abstract

I grandi modelli linguistici (LLM) hanno ottenuto progressi sostanziali nel trattamento di contesti lunghi, ma faticano ancora con il ragionamento a lungo contesto. Gli approcci esistenti coinvolgono tipicamente il raffinamento dei LLM con dati sintetici, che dipendono da annotazioni di esperti umani o modelli avanzati come il GPT-4, limitando così ulteriori progressi. Per affrontare questo problema, esaminiamo il potenziale dei LLM di auto-migliorarsi nel ragionamento a lungo contesto e proponiamo \ours, un approccio appositamente progettato per questo scopo. Questo approccio è diretto: campioniamo più output per ogni domanda, li valutiamo con il Rischio Minimo di Bayes, e quindi applichiamo un raffinamento supervisionato o un'ottimizzazione delle preferenze basata su questi output. Estesi esperimenti su diversi principali LLM dimostrano l'efficacia di \ours, con un miglioramento assoluto di 4,2 punti per Llama-3.1-8B-Instruct. Inoltre, \ours raggiunge prestazioni superiori rispetto agli approcci precedenti che dipendono da dati prodotti da esperti umani o modelli avanzati. Prevediamo che questo lavoro aprirà nuove vie per le tecniche di auto-miglioramento in scenari a lungo contesto, essenziali per il continuo avanzamento dei LLM.

English

Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

I grandi modelli linguistici possono auto-migliorarsi nel ragionamento a lungo contesto.

Large Language Models Can Self-Improve in Long-context Reasoning

Abstract

Summary

Support