LLM 평가에 대해 알고 있던 것을 잊어버리세요 - LLM은 카멜레온과 같습니다.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
저자: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
초록
대형 언어 모델 (LLM)은 종종 공개 벤치마크에서 뛰어난 성과를 보이지만, 이러한 높은 점수는 실제 언어 이해보다는 데이터셋별 표면 단서에 지나치게 의존할 수 있다는 점을 가리킬 수 있습니다. 우리는 Chameleon Benchmark Overfit Detector (C-BOD)를 소개합니다. 이는 벤치마크 프롬프트를 매개변수 변환을 통해 체계적으로 왜곡하고 LLM의 오버피팅을 감지하는 메타평가 프레임워크입니다. 입력을 다시 구사하면서 의미 콘텐츠와 레이블을 보존함으로써, C-BOD는 모델의 성능이 기억된 패턴에 의해 주도되는지 여부를 드러냅니다. 26개의 주요 LLM을 사용하여 MMLU 벤치마크에서 평가한 결과, 우리의 방법은 적은 변형으로 평균 성능 저하율이 2.15%이며, 26개 모델 중 20개가 통계적으로 유의미한 차이를 보였습니다. 특히, 높은 기준 정확도를 가진 모델은 변형에 민감하며, 대형 LLM은 다시 구사에 민감할 가능성이 높아 고정된 프롬프트 패턴에 지나치게 의존할 수 있음을 나타냅니다. 반면, Llama 패밀리 및 낮은 기준 정확도를 가진 모델은 무의미한 성능 저하를 보여주어 표면적인 단서에 대한 의존성이 줄어들었음을 시사합니다. 게다가, C-BOD의 데이터셋 및 모델에 중립적인 설계는 훈련 파이프라인에 쉽게 통합되어 보다 견고한 언어 이해를 촉진할 수 있습니다. 우리의 연구 결과는 커뮤니티에게 리더보드 점수를 넘어서 LLM 평가에서 탄력성과 일반화를 우선시하도록 도전합니다.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary