NoLiMa: 리터럴 일치를 넘어선 장기 맥락 평가
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
저자: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
초록
최근 대형 언어 모델(Large Language Models, LLMs)은 128K에서 1M 토큰에 이르는 긴 문맥을 지원합니다. 이러한 능력을 평가하는 인기 있는 방법 중 하나는 바늘-건초더미(needle-in-a-haystack, NIAH) 테스트인데, 이는 "바늘"(관련 정보)을 "건초더미"(긴 무관한 문맥)에서 검색하는 것을 포함합니다. 이 접근의 확장에는 분산 요소 증가, 사실 연쇄, 문맥 내 추론 등이 포함됩니다. 그러나 이러한 평가에서 모델은 바늘과 건초더미 사이의 기존의 명백한 일치를 활용하여 작업을 단순화할 수 있습니다. 이에 대응하기 위해 우리는 NoLiMa를 소개합니다. 이는 NIAH를 확장한 벤치마크로, 질문과 바늘 간의 어휘적 중첩이 최소화된 신중하게 설계된 바늘 세트를 갖추고 있어 모델이 바늘을 건초더미 내에서 찾기 위해 잠재적 연관성을 추론해야 합니다. 우리는 적어도 128K 토큰의 문맥을 지원한다고 주장하는 12개의 인기 있는 LLM을 평가합니다. 이 모델들은 짧은 문맥(<1K)에서는 잘 수행하지만, 문맥 길이가 증가함에 따라 성능이 크게 저하됩니다. 예를 들어 32K에서는 10개의 모델이 강력한 짧은 길이 기준의 50% 이하로 떨어집니다. 최고 성능을 보이는 예외 중 하나인 GPT-4o조차도 거의 완벽한 99.3%의 기준에서 69.7%로 감소합니다. 우리의 분석은 이러한 하락이 주로 주의 메커니즘이 긴 문맥에서 명백한 일치가 없을 때 직면하는 어려움에서 비롯되어 관련 정보를 검색하기가 더 어려워지기 때문이라고 제안합니다.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary