Les modèles de langage peuvent s'auto-allonger pour générer de longs textes.

Résumé

Les récents progrès dans les Modèles de Langage de Grande Taille (MLGT) ont considérablement amélioré leur capacité à traiter de longs contextes, cependant un écart notable persiste dans la génération de sorties longues et alignées. Cette limitation découle d'un déficit d'entraînement où la pré-formation manque d'instructions efficaces pour la génération de longs textes, et les données post-formation se composent principalement de paires de courtes requêtes-réponses. Les approches actuelles, telles que la rétrotraduction d'instructions et l'imitation de comportement, rencontrent des défis liés à la qualité des données, aux problèmes de droits d'auteur et aux contraintes d'utilisation de modèles propriétaires. Dans cet article, nous introduisons un cadre d'entraînement itératif innovant appelé Auto-Allongement qui exploite uniquement les connaissances et compétences intrinsèques des MLGT sans avoir besoin de données auxiliaires ou de modèles propriétaires. Le cadre se compose de deux rôles : le Générateur et l'Allongeur. Le Générateur produit la réponse initiale, qui est ensuite divisée et étendue par l'Allongeur. Ce processus donne une nouvelle réponse plus longue, qui est utilisée pour entraîner à la fois le Générateur et l'Allongeur de manière itérative. À travers ce processus, les modèles sont progressivement entraînés à gérer des réponses de plus en plus longues. Des expériences sur des référentiels et des évaluations humaines montrent que l'Auto-Allongement surpasse les méthodes existantes dans la génération de longs textes, lorsqu'il est appliqué aux principaux MLGT open-source tels que Qwen2 et LLaMA3. Notre code est publiquement disponible sur https://github.com/QwenLM/Self-Lengthen.

English

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to process long contexts, yet a notable gap remains in generating long, aligned outputs. This limitation stems from a training gap where pre-training lacks effective instructions for long-text generation, and post-training data primarily consists of short query-response pairs. Current approaches, such as instruction backtranslation and behavior imitation, face challenges including data quality, copyright issues, and constraints on proprietary model usage. In this paper, we introduce an innovative iterative training framework called Self-Lengthen that leverages only the intrinsic knowledge and skills of LLMs without the need for auxiliary data or proprietary models. The framework consists of two roles: the Generator and the Extender. The Generator produces the initial response, which is then split and expanded by the Extender. This process results in a new, longer response, which is used to train both the Generator and the Extender iteratively. Through this process, the models are progressively trained to handle increasingly longer responses. Experiments on benchmarks and human evaluations show that Self-Lengthen outperforms existing methods in long-text generation, when applied to top open-source LLMs such as Qwen2 and LLaMA3. Our code is publicly available at https://github.com/QwenLM/Self-Lengthen.

Les modèles de langage peuvent s'auto-allonger pour générer de longs textes.

Language Models can Self-Lengthen to Generate Long Texts

Résumé

Summary

Support