LLM의 효과적인 문맥 길이가 부족한 이유는 무엇인가요?

Why Does the Effective Context Length of LLMs Fall Short?

October 24, 2024
저자: Chenxin An, Jun Zhang, Ming Zhong, Lei Li, Shansan Gong, Yao Luo, Jingjing Xu, Lingpeng Kong
cs.AI

초록

분산 훈련과 효율적인 주의 메커니즘의 발전은 대형 언어 모델의 문맥 창 크기를 크게 확장시켰다. 그러나 최근 연구 결과에 따르면 오픈 소스 언어 모델의 효과적인 문맥 길이는 종종 제한되어 있으며, 일반적으로 훈련 길이의 절반을 초과하지 않는다. 본 연구에서는 이 한계를 LLM 사전 훈련 및 사후 훈련 단계에서 형성된 상대적 위치의 왼쪽으로 치우친 빈도 분포로 귀속하여, 먼 정보를 효과적으로 수집하는 능력을 방해한다고 설명한다. 이러한 도전에 대처하기 위해 ShifTed Rotray position embeddING (STRING)을 소개한다. STRING은 효과적인 위치를 잘 훈련된 위치로 이동시켜 추론 중에 원래의 비효율적인 위치를 덮어쓰며, 기존의 훈련 길이 내에서 성능을 향상시킨다. 실험 결과에 따르면 추가 훈련 없이 STRING은 Llama3.1 70B 및 Qwen2 72B와 같은 최신 대규모 모델의 성능을 현저히 향상시키며, 인기 있는 장문맥 벤치마크 RULER 및 InfiniteBench에서 10점 이상의 결과를 달성하여 오픈 소스 LLM의 최신 기술적 성과를 확립한다. 상용 모델과 비교하면, \method를 사용한 Llama 3.1 70B는 GPT-4-128K보다 우수한 성능을 달성하며, 명확히 Claude 2와 Kimi-chat을 능가한다.
English
Advancements in distributed training and efficient attention mechanisms have significantly expanded the context window sizes of large language models (LLMs). However, recent work reveals that the effective context lengths of open-source LLMs often fall short, typically not exceeding half of their training lengths. In this work, we attribute this limitation to the left-skewed frequency distribution of relative positions formed in LLMs pretraining and post-training stages, which impedes their ability to effectively gather distant information. To address this challenge, we introduce ShifTed Rotray position embeddING (STRING). STRING shifts well-trained positions to overwrite the original ineffective positions during inference, enhancing performance within their existing training lengths. Experimental results show that without additional training, STRING dramatically improves the performance of the latest large-scale models, such as Llama3.1 70B and Qwen2 72B, by over 10 points on popular long-context benchmarks RULER and InfiniteBench, establishing new state-of-the-art results for open-source LLMs. Compared to commercial models, Llama 3.1 70B with \method even achieves better performance than GPT-4-128K and clearly surpasses Claude 2 and Kimi-chat.

Summary

AI-Generated Summary

PDF163November 16, 2024