Sélection des échantillons influents pour l'alignement de longs contextes via le guidage des modèles homologues et la mesure de la conscience contextuelle.

Résumé

L'expansion des grands modèles de langage pour gérer efficacement les instructions avec des contextes extrêmement longs reste à explorer pleinement. L'obstacle principal réside dans la construction d'un ensemble de données de suivi d'instructions longues de haute qualité conçu pour l'alignement des contextes longs. Des études existantes ont tenté de faire évoluer le volume de données disponible en synthétisant des échantillons de suivi d'instructions longues. Cependant, augmenter de manière indiscriminée la quantité de données sans une stratégie bien définie pour garantir la qualité des données peut introduire des échantillons de faible qualité et limiter les performances finales. Pour combler cette lacune, nous visons à relever le défi unique de l'alignement de contextes longs, c'est-à-dire modéliser les dépendances à longue portée pour gérer les instructions et les contextes d'entrée étendus. Nous proposons GATEAU, un nouveau cadre conçu pour identifier les échantillons influents et de haute qualité enrichis en relations de dépendance à longue portée en utilisant le Guidage des Modèles Homologues (HMG) et la Mesure de la Conscience Contextuelle (CAM). Plus précisément, le HMG tente de mesurer la difficulté de générer des réponses correspondantes en raison des dépendances à longue portée, en utilisant les scores de perplexité de la réponse de deux modèles homologues avec des fenêtres contextuelles différentes. De plus, le rôle de la CAM est de mesurer la difficulté de comprendre les contextes d'entrée longs en raison des dépendances à longue portée en évaluant si l'attention du modèle est concentrée sur des segments importants. En s'appuyant sur ces deux méthodes proposées, nous sélectionnons les échantillons les plus difficiles comme données influentes pour encadrer efficacement les dépendances à longue portée, permettant ainsi d'améliorer les performances des LLM. Des expériences approfondies indiquent que GATEAU identifie efficacement des échantillons enrichis en relations de dépendance à longue portée et que le modèle formé sur ces échantillons sélectionnés présente de meilleures capacités de suivi d'instructions et de compréhension de contextes longs.

English

The expansion of large language models to effectively handle instructions with extremely long contexts has yet to be fully investigated. The primary obstacle lies in constructing a high-quality long instruction-following dataset devised for long context alignment. Existing studies have attempted to scale up the available data volume by synthesizing long instruction-following samples. However, indiscriminately increasing the quantity of data without a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the final performance. To bridge this gap, we aim to address the unique challenge of long-context alignment, i.e., modeling the long-range dependencies for handling instructions and lengthy input contexts. We propose GATEAU, a novel framework designed to identify the influential and high-quality samples enriched with long-range dependency relations by utilizing crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement (CAM). Specifically, HMG attempts to measure the difficulty of generating corresponding responses due to the long-range dependencies, using the perplexity scores of the response from two homologous models with different context windows. Also, the role of CAM is to measure the difficulty of understanding the long input contexts due to long-range dependencies by evaluating whether the model's attention is focused on important segments. Built upon both proposed methods, we select the most challenging samples as the influential data to effectively frame the long-range dependencies, thereby achieving better performance of LLMs. Comprehensive experiments indicate that GATEAU effectively identifies samples enriched with long-range dependency relations and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

Sélection des échantillons influents pour l'alignement de longs contextes via le guidage des modèles homologues et la mesure de la conscience contextuelle.

Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

Résumé

Support