Die Auswahl einflussreicher Proben für die Ausrichtung langer Kontexte mittels Anleitung durch homologe Modelle und Messung des kontextuellen Bewusstseins.
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement
October 21, 2024
Autoren: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI
Zusammenfassung
Die Erweiterung großer Sprachmodelle, um Anweisungen mit extrem langen Kontexten effektiv zu verarbeiten, wurde noch nicht vollständig erforscht. Das Hauptproblem besteht darin, einen hochwertigen Datensatz für das Befolgen langer Anweisungen zu erstellen, der für die Ausrichtung langer Kontexte konzipiert ist. Bisherige Studien haben versucht, das verfügbare Datenvolumen durch die Synthese langer Beispiele für das Befolgen von Anweisungen zu skalieren. Allerdings kann eine unkontrollierte Erhöhung der Datenmenge ohne eine klar definierte Strategie zur Sicherung der Datenqualität zu minderwertigen Beispielen führen und die endgültige Leistung einschränken. Um diese Lücke zu schließen, zielen wir darauf ab, die einzigartige Herausforderung der Ausrichtung von langen Kontexten anzugehen, d.h. die Modellierung der langreichweitigen Abhängigkeiten zur Verarbeitung von Anweisungen und langen Eingabekontexten. Wir schlagen GATEAU vor, ein neuartiges Framework, das entwickelt wurde, um die einflussreichen und hochwertigen Beispiele mit langreichweitigen Abhängigkeiten zu identifizieren, indem es das Homologous Models' Guidance (HMG) und die Contextual Awareness Measurement (CAM) nutzt. Speziell versucht HMG, die Schwierigkeit der Generierung entsprechender Antworten aufgrund der langreichweitigen Abhängigkeiten zu messen, indem die Perplexitätswerte der Antwort von zwei homologen Modellen mit unterschiedlichen Kontextfenstern verwendet werden. Die Aufgabe von CAM besteht darin, die Schwierigkeit des Verstehens langer Eingabekontexte aufgrund langreichweitiger Abhängigkeiten zu messen, indem bewertet wird, ob die Aufmerksamkeit des Modells auf wichtige Segmente gerichtet ist. Basierend auf beiden vorgeschlagenen Methoden wählen wir die herausforderndsten Beispiele als einflussreiche Daten aus, um die langreichweitigen Abhängigkeiten effektiv zu modellieren und somit eine bessere Leistung von LLMs zu erzielen. Umfassende Experimente zeigen, dass GATEAU effektiv Beispiele mit langreichweitigen Abhängigkeiten identifiziert und das auf diesen ausgewählten Beispielen trainierte Modell eine bessere Fähigkeit zum Befolgen von Anweisungen und zum Verständnis langer Kontexte aufweist.
English
The expansion of large language models to effectively handle instructions
with extremely long contexts has yet to be fully investigated. The primary
obstacle lies in constructing a high-quality long instruction-following dataset
devised for long context alignment. Existing studies have attempted to scale up
the available data volume by synthesizing long instruction-following samples.
However, indiscriminately increasing the quantity of data without a
well-defined strategy for ensuring data quality may introduce low-quality
samples and restrict the final performance. To bridge this gap, we aim to
address the unique challenge of long-context alignment, i.e., modeling the
long-range dependencies for handling instructions and lengthy input contexts.
We propose GATEAU, a novel framework designed to identify the influential and
high-quality samples enriched with long-range dependency relations by utilizing
crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement
(CAM). Specifically, HMG attempts to measure the difficulty of generating
corresponding responses due to the long-range dependencies, using the
perplexity scores of the response from two homologous models with different
context windows. Also, the role of CAM is to measure the difficulty of
understanding the long input contexts due to long-range dependencies by
evaluating whether the model's attention is focused on important segments.
Built upon both proposed methods, we select the most challenging samples as the
influential data to effectively frame the long-range dependencies, thereby
achieving better performance of LLMs. Comprehensive experiments indicate that
GATEAU effectively identifies samples enriched with long-range dependency
relations and the model trained on these selected samples exhibits better
instruction-following and long-context understanding capabilities.Summary
AI-Generated Summary