Het selecteren van invloedrijke voorbeelden voor het afstemmen van lange contexten via begeleiding van homologe modellen en meting van contextueel bewustzijn.

Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

October 21, 2024
Auteurs: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI

Samenvatting

De uitbreiding van grote taalmodellen om effectief om te gaan met instructies met extreem lange contexten is nog niet volledig onderzocht. Het voornaamste obstakel ligt in het construeren van een hoogwaardige dataset voor het volgen van lange instructies, ontworpen voor het afstemmen van lange contexten. Bestaande studies hebben geprobeerd de beschikbare hoeveelheid data te vergroten door het synthetiseren van voorbeelden van het volgen van lange instructies. Echter, het willekeurig vergroten van de hoeveelheid data zonder een goed gedefinieerde strategie om de kwaliteit van de data te waarborgen kan leiden tot lage kwaliteit voorbeelden en de uiteindelijke prestaties beperken. Om deze kloof te overbruggen, richten we ons op de unieke uitdaging van het afstemmen van lange contexten, oftewel het modelleren van de lange-afstandsafhankelijkheden voor het omgaan met instructies en uitgebreide invoercontexten. We stellen GATEAU voor, een nieuw raamwerk dat is ontworpen om de invloedrijke en hoogwaardige voorbeelden te identificeren die verrijkt zijn met lange-afstandsafhankelijkheidsrelaties door gebruik te maken van de ontworpen Begeleiding van Homologe Modellen (HMG) en Contextueel Bewustzijnsmeting (CAM). Specifiek probeert HMG de moeilijkheid van het genereren van overeenkomstige reacties te meten als gevolg van de lange-afstandsafhankelijkheden, door gebruik te maken van de perplexiteitsscores van de reactie van twee homologe modellen met verschillende contextvensters. Ook heeft CAM als doel de moeilijkheid van het begrijpen van de lange invoercontexten als gevolg van lange-afstandsafhankelijkheden te meten door te evalueren of de aandacht van het model gericht is op belangrijke segmenten. Gebaseerd op beide voorgestelde methoden selecteren we de meest uitdagende voorbeelden als de invloedrijke data om effectief de lange-afstandsafhankelijkheden te structureren, waardoor een betere prestatie van LLMs wordt bereikt. Uitgebreide experimenten tonen aan dat GATEAU effectief voorbeelden identificeert die verrijkt zijn met lange-afstandsafhankelijkheidsrelaties en dat het model dat is getraind op deze geselecteerde voorbeelden betere vaardigheden vertoont op het gebied van het volgen van instructies en het begrijpen van lange contexten.
English
The expansion of large language models to effectively handle instructions with extremely long contexts has yet to be fully investigated. The primary obstacle lies in constructing a high-quality long instruction-following dataset devised for long context alignment. Existing studies have attempted to scale up the available data volume by synthesizing long instruction-following samples. However, indiscriminately increasing the quantity of data without a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the final performance. To bridge this gap, we aim to address the unique challenge of long-context alignment, i.e., modeling the long-range dependencies for handling instructions and lengthy input contexts. We propose GATEAU, a novel framework designed to identify the influential and high-quality samples enriched with long-range dependency relations by utilizing crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement (CAM). Specifically, HMG attempts to measure the difficulty of generating corresponding responses due to the long-range dependencies, using the perplexity scores of the response from two homologous models with different context windows. Also, the role of CAM is to measure the difficulty of understanding the long input contexts due to long-range dependencies by evaluating whether the model's attention is focused on important segments. Built upon both proposed methods, we select the most challenging samples as the influential data to effectively frame the long-range dependencies, thereby achieving better performance of LLMs. Comprehensive experiments indicate that GATEAU effectively identifies samples enriched with long-range dependency relations and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

Summary

AI-Generated Summary

PDF73November 16, 2024