GeAR: 生成増強検索

GeAR: Generation Augmented Retrieval

January 6, 2025
著者: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI

要旨

文書検索技術は大規模情報システムの開発の基盤を形成しています。主流の方法論は、バイエンコーダを構築し、意味の類似性を計算することです。しかし、このスカラー類似性は十分な情報を反映するのが難しく、検索結果の理解を妨げます。さらに、この計算プロセスは主にグローバルな意味を強調し、クエリと文書内の複雑なテキストとの微細な意味関係を無視します。本論文では、設計された融合およびデコーディングモジュールを組み込んだ新しい手法である「Generation Augmented Retrieval(GeAR)」を提案します。これにより、GeARはクエリと文書の融合表現に基づいて文書から関連テキストを生成できるため、「微細な情報に焦点を当てる」ことを学習します。また、リトリーバーとして使用される場合、GeARはバイエンコーダに比べて計算負荷を増やしません。新しいフレームワークのトレーニングをサポートするために、大規模言語モデルを利用して高品質なデータを効率的に合成するためのパイプラインを導入しました。GeARはさまざまなシナリオとデータセットで競争力のある検索および位置特定のパフォーマンスを示します。さらに、GeARによって生成された結果と定性的分析は、検索結果の解釈に新しい洞察を提供します。コード、データ、およびモデルは、技術的レビューが完了した後に公開され、将来の研究を支援します。
English
Document retrieval techniques form the foundation for the development of large-scale information systems. The prevailing methodology is to construct a bi-encoder and compute the semantic similarity. However, such scalar similarity is difficult to reflect enough information and impedes our comprehension of the retrieval results. In addition, this computational process mainly emphasizes the global semantics and ignores the fine-grained semantic relationship between the query and the complex text in the document. In this paper, we propose a new method called Generation Augmented Retrieval (GeAR) that incorporates well-designed fusion and decoding modules. This enables GeAR to generate the relevant text from documents based on the fused representation of the query and the document, thus learning to "focus on" the fine-grained information. Also when used as a retriever, GeAR does not add any computational burden over bi-encoders. To support the training of the new framework, we have introduced a pipeline to efficiently synthesize high-quality data by utilizing large language models. GeAR exhibits competitive retrieval and localization performance across diverse scenarios and datasets. Moreover, the qualitative analysis and the results generated by GeAR provide novel insights into the interpretation of retrieval results. The code, data, and models will be released after completing technical review to facilitate future research.

Summary

AI-Generated Summary

PDF222January 9, 2025