DyVo: 엔티티를 활용한 학습 기반 희소 검색을 위한 동적 어휘
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities
October 10, 2024
저자: Thong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates
cs.AI
초록
학습된 희소 검색(Learned Sparse Retrieval, LSR) 모델은 종종 사전 훈련된 트랜스포머로부터 어휘를 사용하는데, 이는 종종 개체를 무의미한 조각으로 분할합니다. 개체를 분할하면 검색 정확도가 감소하고 모델이 훈련 데이터에 포함되지 않은 최신 세계 지식을 통합하는 능력이 제한될 수 있습니다. 본 연구에서는 LSR 어휘를 위키피디아 개념 및 개체로 보강하여 모델이 모호성을 더 효과적으로 해소하고 진화하는 지식과 최신 상태를 유지할 수 있도록 합니다. 우리의 접근 방식의 핵심은 동적 어휘(Dynamic Vocabulary, DyVo) 헤드로, 기존 개체 임베딩과 쿼리 또는 문서와 관련된 개체를 식별하는 개체 검색 구성 요소를 활용합니다. 우리는 DyVo 헤드를 사용하여 개체 가중치를 생성하고, 이를 단어 조각 가중치와 병합하여 역 인덱스를 사용한 효율적인 색인 및 검색을 위한 공동 표현을 생성합니다. 세 개의 개체 풍부한 문서 순위 데이터셋을 통한 실험에서, 결과적으로 얻어진 DyVo 모델은 최첨단 베이스라인을 크게 능가합니다.
English
Learned Sparse Retrieval (LSR) models use vocabularies from pre-trained
transformers, which often split entities into nonsensical fragments. Splitting
entities can reduce retrieval accuracy and limits the model's ability to
incorporate up-to-date world knowledge not included in the training data. In
this work, we enhance the LSR vocabulary with Wikipedia concepts and entities,
enabling the model to resolve ambiguities more effectively and stay current
with evolving knowledge. Central to our approach is a Dynamic Vocabulary (DyVo)
head, which leverages existing entity embeddings and an entity retrieval
component that identifies entities relevant to a query or document. We use the
DyVo head to generate entity weights, which are then merged with word piece
weights to create joint representations for efficient indexing and retrieval
using an inverted index. In experiments across three entity-rich document
ranking datasets, the resulting DyVo model substantially outperforms
state-of-the-art baselines.Summary
AI-Generated Summary