Taalmodellen kunnen zichzelf verlengen om lange teksten te genereren.

Samenvatting

Recente ontwikkelingen in Grote Taalmodellen (LLMs) hebben aanzienlijk bijgedragen aan hun vermogen om lange contexten te verwerken, maar er blijft een opmerkelijk hiaat bestaan in het genereren van lange, uitgelijnde uitvoer. Deze beperking komt voort uit een trainingskloof waarbij pre-training geen effectieve instructies biedt voor het genereren van lange tekst, en post-training data voornamelijk bestaat uit korte vraag-antwoordparen. Huidige benaderingen, zoals instructie-terugvertaling en gedragsimitatie, worden geconfronteerd met uitdagingen zoals datakwaliteit, auteursrechtenkwesties en beperkingen op het gebruik van eigen modellen. In dit artikel introduceren we een innovatief iteratief trainingskader genaamd Zelf-Verlengen dat uitsluitend gebruikmaakt van de intrinsieke kennis en vaardigheden van LLMs zonder de noodzaak van hulpdata of eigen modellen. Het kader bestaat uit twee rollen: de Generator en de Verlenger. De Generator produceert het initiële antwoord, dat vervolgens wordt gesplitst en uitgebreid door de Verlenger. Dit proces resulteert in een nieuw, langer antwoord, dat wordt gebruikt om zowel de Generator als de Verlenger iteratief te trainen. Via dit proces worden de modellen geleidelijk getraind om steeds langere antwoorden te verwerken. Experimenten op benchmarks en menselijke evaluaties tonen aan dat Zelf-Verlengen beter presteert dan bestaande methoden in het genereren van lange tekst, wanneer toegepast op toonaangevende open-source LLMs zoals Qwen2 en LLaMA3. Onze code is openbaar beschikbaar op https://github.com/QwenLM/Zelf-Verlengen.

English

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to process long contexts, yet a notable gap remains in generating long, aligned outputs. This limitation stems from a training gap where pre-training lacks effective instructions for long-text generation, and post-training data primarily consists of short query-response pairs. Current approaches, such as instruction backtranslation and behavior imitation, face challenges including data quality, copyright issues, and constraints on proprietary model usage. In this paper, we introduce an innovative iterative training framework called Self-Lengthen that leverages only the intrinsic knowledge and skills of LLMs without the need for auxiliary data or proprietary models. The framework consists of two roles: the Generator and the Extender. The Generator produces the initial response, which is then split and expanded by the Extender. This process results in a new, longer response, which is used to train both the Generator and the Extender iteratively. Through this process, the models are progressively trained to handle increasingly longer responses. Experiments on benchmarks and human evaluations show that Self-Lengthen outperforms existing methods in long-text generation, when applied to top open-source LLMs such as Qwen2 and LLaMA3. Our code is publicly available at https://github.com/QwenLM/Self-Lengthen.

Taalmodellen kunnen zichzelf verlengen om lange teksten te genereren.

Language Models can Self-Lengthen to Generate Long Texts

Samenvatting

Support