맥락적 문서 임베딩
Contextual Document Embeddings
October 3, 2024
저자: John X. Morris, Alexander M. Rush
cs.AI
초록
밀집 문서 임베딩은 신경 검색에서 중요합니다. 주요 패러다임은 개별 문서에 직접 인코더를 실행하여 임베딩을 훈련하고 구축하는 것입니다. 본 연구에서는 이러한 임베딩이 효과적이지만 검색의 대상 사용 사례에 대해 암묵적으로 맥락을 고려하지 않으며, 맥락화된 문서 임베딩은 문서와 주변 문서를 모두 고려해야 한다는 주장을 제시합니다 - 단어 임베딩과 유사합니다. 우리는 맥락화된 문서 임베딩을 위해 두 가지 보완적인 방법을 제안합니다: 첫째, 문서 이웃을 배치 내 맥락 손실에 명시적으로 통합하는 대안 대조 학습 목표; 둘째, 인코딩된 표현에 이웃 문서 정보를 명시적으로 인코딩하는 새로운 맥락화된 아키텍처입니다. 결과는 두 방법 모두 다양한 설정에서 바이인코더보다 우수한 성능을 달성하며, 특히 도메인 외에서 차이가 두드러집니다. 저희는 MTEB 벤치마크에서 최첨단 결과를 달성했으며, 하드 네거티브 마이닝, 점수 증류, 데이터셋별 지침, GPU 내 예시 공유 또는 매우 큰 배치 크기 없이 이루어졌습니다. 저희 방법은 대조 학습 데이터셋 및 어떤 바이인코더에서도 성능을 향상시키는 데 적용할 수 있습니다.
English
Dense document embeddings are central to neural retrieval. The dominant
paradigm is to train and construct embeddings by running encoders directly on
individual documents. In this work, we argue that these embeddings, while
effective, are implicitly out-of-context for targeted use cases of retrieval,
and that a contextualized document embedding should take into account both the
document and neighboring documents in context - analogous to contextualized
word embeddings. We propose two complementary methods for contextualized
document embeddings: first, an alternative contrastive learning objective that
explicitly incorporates the document neighbors into the intra-batch contextual
loss; second, a new contextual architecture that explicitly encodes neighbor
document information into the encoded representation. Results show that both
methods achieve better performance than biencoders in several settings, with
differences especially pronounced out-of-domain. We achieve state-of-the-art
results on the MTEB benchmark with no hard negative mining, score distillation,
dataset-specific instructions, intra-GPU example-sharing, or extremely large
batch sizes. Our method can be applied to improve performance on any
contrastive learning dataset and any biencoder.Summary
AI-Generated Summary