동질 모델의 안내와 맥락적 인식 측정을 통해 장기적 맥락 정렬을 위한 영향력 있는 샘플 선택
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement
October 21, 2024
저자: Shuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
cs.AI
초록
대규모 언어 모델을 확장하여 극도로 긴 문맥을 처리하는 능력을 효과적으로 다루기 위한 연구가 완전히 탐구되지 않은 상태입니다. 주요 장애물은 긴 문맥 정렬을 위해 고안된 고품질의 장문 지시어 따르기 데이터셋을 구축하는 데 있습니다. 기존 연구는 긴 지시어 따르기 샘플을 합성하여 사용 가능한 데이터 양을 확장하려고 시도해 왔습니다. 그러나 데이터 품질을 보장하기 위한 명확한 전략 없이 데이터 양을 무분별하게 증가시키면 낮은 품질의 샘플을 도입하고 최종 성능을 제한할 수 있습니다. 이 간극을 메우기 위해 우리는 긴 문맥 정렬의 독특한 도전 과제, 즉 지시어 및 긴 입력 문맥을 처리하기 위한 장거리 종속성 모델링에 대응하고자 합니다. 우리는 HMG(Homologous Models' Guidance)와 CAM(Contextual Awareness Measurement)을 활용하여 장거리 종속성 관계로 풍부하고 고품질의 샘플을 식별하기 위한 혁신적인 프레임워크인 GATEAU를 제안합니다. 구체적으로, HMG는 서로 다른 문맥 창을 가진 두 동종 모델의 응답의 혼란도 점수를 사용하여 장거리 종속성으로 인해 해당 응답을 생성하는 난이도를 측정하려고 시도합니다. 또한, CAM의 역할은 모델의 주의가 중요한 세그먼트에 집중되는지를 평가하여 장거리 종속성으로 인해 긴 입력 문맥을 이해하는 난이도를 측정하는 것입니다. 제안된 두 방법을 기반으로, 우리는 장거리 종속성을 효과적으로 프레임하는 데 영향력 있는 데이터로 가장 어려운 샘플을 선택하여 LLMs의 성능을 향상시킵니다. 포괄적인 실험 결과는 GATEAU가 장거리 종속성 관계로 풍부한 샘플을 효과적으로 식별하며 이러한 선택된 샘플로 훈련된 모델이 지시어 따르기 및 긴 문맥 이해 능력이 더 좋다는 것을 나타냅니다.
English
The expansion of large language models to effectively handle instructions
with extremely long contexts has yet to be fully investigated. The primary
obstacle lies in constructing a high-quality long instruction-following dataset
devised for long context alignment. Existing studies have attempted to scale up
the available data volume by synthesizing long instruction-following samples.
However, indiscriminately increasing the quantity of data without a
well-defined strategy for ensuring data quality may introduce low-quality
samples and restrict the final performance. To bridge this gap, we aim to
address the unique challenge of long-context alignment, i.e., modeling the
long-range dependencies for handling instructions and lengthy input contexts.
We propose GATEAU, a novel framework designed to identify the influential and
high-quality samples enriched with long-range dependency relations by utilizing
crafted Homologous Models' Guidance (HMG) and Contextual Awareness Measurement
(CAM). Specifically, HMG attempts to measure the difficulty of generating
corresponding responses due to the long-range dependencies, using the
perplexity scores of the response from two homologous models with different
context windows. Also, the role of CAM is to measure the difficulty of
understanding the long input contexts due to long-range dependencies by
evaluating whether the model's attention is focused on important segments.
Built upon both proposed methods, we select the most challenging samples as the
influential data to effectively frame the long-range dependencies, thereby
achieving better performance of LLMs. Comprehensive experiments indicate that
GATEAU effectively identifies samples enriched with long-range dependency
relations and the model trained on these selected samples exhibits better
instruction-following and long-context understanding capabilities.Summary
AI-Generated Summary