RARe: 문맥 예시를 활용한 검색 보강 검색

RARe: Retrieval Augmented Retrieval with In-Context Examples

October 26, 2024
저자: Atula Tejaswi, Yoonsang Lee, Sujay Sanghavi, Eunsol Choi
cs.AI

초록

우리는 디코더 전용 언어 모델(LLM)에서 널리 사용되는 문맥 예시가 검색 작업에서 임베딩 모델 성능을 향상시킬 수 있는지 조사합니다. LLM과는 달리, 단순히 추론 시에 문맥 예시(쿼리-문서 쌍)를 대상 쿼리 앞에 추가하는 것은 기본적으로 작동하지 않습니다. 우리는 리트리버가 문맥 예시를 활용할 수 있도록 하는 간단한 방법을 소개합니다. 우리의 접근 방식인 RARe는 대상 쿼리와 의미적으로 유사한 문맥 예시로 사전 훈련된 모델을 세밀 조정합니다. 이는 다양한 베이스 아키텍처(즉, 디코더 전용 언어 모델, 리트리버 모델)에 적용될 수 있으며, 다양한 오픈 도메인 검색 데이터셋(BeIR, RAR-b)에서 최대 +2.72% nDCG의 성능 향상을 일관되게 달성합니다. 특히, 우리는 RARe가 문맥 예시를 사용하지 않는 모델에 비해 도메인 밖 일반화에서 더 강한 성능을 보여주며, LLM에서의 문맥 학습에서 관찰되는 것과 유사한 결과를 얻었습니다. 또한, 문맥 예시 증강의 설계 선택에 대한 분석을 제공하고, 이 분야의 미래 작업을 위한 기초를 마련합니다.
English
We investigate whether in-context examples, widely used in decoder-only language models (LLMs), can improve embedding model performance in retrieval tasks. Unlike in LLMs, naively prepending in-context examples (query-document pairs) to the target query at inference time does not work out of the box. We introduce a simple approach to enable retrievers to use in-context examples. Our approach, RARe, finetunes a pre-trained model with in-context examples whose query is semantically similar to the target query. This can be applied to adapt various base architectures (i.e., decoder-only language models, retriever models) and consistently achieves performance gains of up to +2.72% nDCG across various open-domain retrieval datasets (BeIR, RAR-b). In particular, we find RARe exhibits stronger out-of-domain generalization compared to models using queries without in-context examples, similar to what is seen for in-context learning in LLMs. We further provide analysis on the design choices of in-context example augmentation and lay the foundation for future work in this space.

Summary

AI-Generated Summary

PDF53November 16, 2024