L-CiteEval: 긴 맥락 모델이 정말로 응답을 위해 맥락을 활용하는가?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
October 3, 2024
저자: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI
초록
최근 몇 년 동안, 장기 문맥 모델(Long-context models, LCMs)은 혁신적인 발전을 이루어 왔으며, 문서 요약과 같은 장기 문맥을 필요로 하는 작업을 처리하는 데 사용자에게 큰 편의를 제공하고 있습니다. 커뮤니티가 생성된 결과물의 충실성을 점점 우선시하는 가운데, LCM 출력물의 정확성만을 보장하는 것은 부족합니다. 극도로 긴 문맥에서 결과물을 검증하는 것은 인간에게 매우 어려운 작업이기 때문입니다. 그러나, 일부 노력이 있었지만, LCM이 문맥에 기반하여 정확하게 응답하는지를 평가하는 것은 특정 작업에 한정되거나 GPT-4와 같은 외부 평가 자원에 심하게 의존하는 경우가 많습니다. 본 연구에서는 인용을 포함한 장기 문맥 이해에 대한 포괄적인 멀티 태스크 벤치마크인 L-CiteEval을 소개하며, LCM의 이해 능력과 충실성을 평가하는 것을 목표로 합니다. L-CiteEval은 8K에서 48K까지 다양한 도메인의 11가지 작업을 다루며, 완전 자동화된 평가 스위트를 제공합니다. 11개의 최첨단 폐쇄형 및 오픈소스 LCM을 테스트한 결과, 이러한 모델들은 생성된 결과물에 약간의 차이를 보이지만, 오픈소스 모델은 인용 정확도와 회수 측면에서 폐쇄형 모델에 크게 뒤처지는 것으로 나타났습니다. 이는 현재의 오픈소스 LCM이 주어진 문맥이 아닌 내재적 지식에 기반하여 응답하기 쉽다는 것을 시사하며, 이는 실제 응용 프로그램에서 사용자 경험에 상당한 위험을 초래할 수 있습니다. 또한 RAG 접근법을 평가하고, RAG가 LCM의 충실성을 크게 향상시킬 수 있지만, 생성 품질은 약간 감소하는 것을 관찰했습니다. 더 나아가, LCM의 주의 메커니즘과 인용 생성 과정 사이에 상관 관계를 발견했습니다.
English
Long-context models (LCMs) have made remarkable strides in recent years,
offering users great convenience for handling tasks that involve long context,
such as document summarization. As the community increasingly prioritizes the
faithfulness of generated results, merely ensuring the accuracy of LCM outputs
is insufficient, as it is quite challenging for humans to verify the results
from the extremely lengthy context. Yet, although some efforts have been made
to assess whether LCMs respond truly based on the context, these works either
are limited to specific tasks or heavily rely on external evaluation resources
like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task
benchmark for long-context understanding with citations, aiming to evaluate
both the understanding capability and faithfulness of LCMs. L-CiteEval covers
11 tasks from diverse domains, spanning context lengths from 8K to 48K, and
provides a fully automated evaluation suite. Through testing with 11
cutting-edge closed-source and open-source LCMs, we find that although these
models show minor differences in their generated results, open-source models
substantially trail behind their closed-source counterparts in terms of
citation accuracy and recall. This suggests that current open-source LCMs are
prone to responding based on their inherent knowledge rather than the given
context, posing a significant risk to the user experience in practical
applications. We also evaluate the RAG approach and observe that RAG can
significantly improve the faithfulness of LCMs, albeit with a slight decrease
in the generation quality. Furthermore, we discover a correlation between the
attention mechanisms of LCMs and the citation generation process.Summary
AI-Generated Summary