SelfCite: 대형 언어 모델에서의 문맥 소속을 위한 자기 지도 정렬
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
February 13, 2025
저자: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
cs.AI
초록
우리는 SelfCite를 소개합니다. 이는 LLMs를 정렬하여 생성된 응답의 문장 수준 인용을 위한 고품질의 세밀한 인용을 생성하는 혁신적인 자기 지도 방법입니다. 고가 및 노동 집약적인 주석에만 의존하는 대신, SelfCite는 LLM 자체가 제공하는 보상 신호를 활용합니다. 이는 문맥 소거를 통해 이루어집니다. 인용이 필요한 경우, 문맥에서 인용된 텍스트를 제거하면 동일한 응답이 방지되어야 합니다. 충분하다면, 인용된 텍스트만 유지하면 동일한 응답이 보존되어야 합니다. 이 보상은 추론 시에 Best-of-N 샘플링 전략을 이끌어 인용 품질을 크게 향상시키는 데 사용될 수 있을 뿐만 아니라, 선호도 최적화에 사용되어 모델을 직접 세밀하게 조정하여 더 나은 인용을 생성하도록 안내할 수 있습니다. SelfCite의 효과는 다섯 가지 장문형 질문 응답 작업에서 LongBench-Cite 벤치마크에서 인용 F1을 최대 5.3 포인트까지 향상시킴으로써 입증되었습니다.
English
We introduce SelfCite, a novel self-supervised approach that aligns LLMs to
generate high-quality, fine-grained, sentence-level citations for the
statements in their generated responses. Instead of only relying on costly and
labor-intensive annotations, SelfCite leverages a reward signal provided by the
LLM itself through context ablation: If a citation is necessary, removing the
cited text from the context should prevent the same response; if sufficient,
retaining the cited text alone should preserve the same response. This reward
can guide the inference-time best-of-N sampling strategy to improve citation
quality significantly, as well as be used in preference optimization to
directly fine-tune the models for generating better citations. The
effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3
points on the LongBench-Cite benchmark across five long-form question answering
tasks.Summary
AI-Generated Summary