Grote taalmodellen kunnen zichzelf verbeteren in redeneren met lange contexten.
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Auteurs: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt in het verwerken van lange contexten, maar worstelen nog steeds met redeneren over lange contexten. Bestaande benaderingen omvatten doorgaans het fijnafstemmen van LLM's met synthetische gegevens, die afhankelijk zijn van annotaties van menselijke experts of geavanceerde modellen zoals GPT-4, waardoor verdere vooruitgang wordt beperkt. Om dit probleem aan te pakken, onderzoeken we het potentieel voor LLM's om zichzelf te verbeteren in redeneren over lange contexten en stellen we \ours voor, een benadering die specifiek is ontworpen voor dit doel. Deze benadering is eenvoudig: we monsteren meerdere uitvoerresultaten voor elke vraag, scoren ze met Minimum Bayes Risk, en passen vervolgens begeleid fijnafstemmen of voorkeursoptimalisatie toe op basis van deze resultaten. Uitgebreide experimenten met verschillende toonaangevende LLM's tonen de effectiviteit van \ours aan, met een absolute verbetering van 4,2 punten voor Llama-3.1-8B-Instruct. Bovendien behaalt \ours superieure prestaties in vergelijking met eerdere benaderingen die afhankelijk zijn van gegevens die zijn geproduceerd door menselijke experts of geavanceerde modellen. We verwachten dat dit werk nieuwe wegen zal openen voor zelfverbeteringstechnieken in scenario's met lange context, die essentieel zijn voor de voortdurende vooruitgang van LLM's.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.Summary
AI-Generated Summary