GeAR: 생성 증강 검색
GeAR: Generation Augmented Retrieval
January 6, 2025
저자: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
초록
문서 검색 기술은 대규모 정보 시스템 개발의 기초를 형성합니다. 현재의 방법론은 바이-인코더를 구축하고 의미 유사성을 계산하는 것입니다. 그러나 이러한 스칼라 유사성은 충분한 정보를 반영하기 어렵고 검색 결과를 이해하는 데 어려움을 줍니다. 또한, 이 계산 과정은 주로 전역 의미를 강조하며 쿼리와 문서 내 복잡한 텍스트 간의 세밀한 의미 관계를 무시합니다. 본 논문에서는 퓨전과 디코딩 모듈을 통합한 새로운 방법인 Generation Augmented Retrieval (GeAR)을 제안합니다. 이를 통해 GeAR은 쿼리와 문서의 퓨전 표현을 기반으로 문서로부터 관련 텍스트를 생성함으로써 세밀한 정보에 "집중"하는 학습을 합니다. 또한, 검색기로 사용될 때, GeAR은 바이-인코더보다 계산 부담을 추가하지 않습니다. 새로운 프레임워크의 교육을 지원하기 위해 대규모 언어 모델을 활용하여 고품질 데이터를 효율적으로 합성하는 파이프라인을 도입했습니다. GeAR은 다양한 시나리오와 데이터셋에서 경쟁력 있는 검색 및 지역화 성능을 보여줍니다. 게다가, GeAR에 의해 생성된 결과를 통해 검색 결과의 해석에 대한 새로운 통찰을 제공합니다. 코드, 데이터 및 모델은 기술 검토를 완료한 후 릴리스되어 향후 연구를 용이하게 할 것입니다.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary