Grote taalmodellen kunnen zichzelf verbeteren in redeneren met lange contexten.

Large Language Models Can Self-Improve in Long-context Reasoning

November 12, 2024
Auteurs: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt in het verwerken van lange contexten, maar worstelen nog steeds met redeneren over lange contexten. Bestaande benaderingen omvatten doorgaans het fijnafstemmen van LLM's met synthetische gegevens, die afhankelijk zijn van annotaties van menselijke experts of geavanceerde modellen zoals GPT-4, waardoor verdere vooruitgang wordt beperkt. Om dit probleem aan te pakken, onderzoeken we het potentieel voor LLM's om zichzelf te verbeteren in redeneren over lange contexten en stellen we \ours voor, een benadering die specifiek is ontworpen voor dit doel. Deze benadering is eenvoudig: we monsteren meerdere uitvoerresultaten voor elke vraag, scoren ze met Minimum Bayes Risk, en passen vervolgens begeleid fijnafstemmen of voorkeursoptimalisatie toe op basis van deze resultaten. Uitgebreide experimenten met verschillende toonaangevende LLM's tonen de effectiviteit van \ours aan, met een absolute verbetering van 4,2 punten voor Llama-3.1-8B-Instruct. Bovendien behaalt \ours superieure prestaties in vergelijking met eerdere benaderingen die afhankelijk zijn van gegevens die zijn geproduceerd door menselijke experts of geavanceerde modellen. We verwachten dat dit werk nieuwe wegen zal openen voor zelfverbeteringstechnieken in scenario's met lange context, die essentieel zijn voor de voortdurende vooruitgang van LLM's.
English
Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

Summary

AI-Generated Summary

PDF594November 14, 2024