GeAR: Generazione potenziata del recupero

GeAR: Generation Augmented Retrieval

January 6, 2025
Autori: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI

Abstract

Le tecniche di recupero documenti costituiscono la base per lo sviluppo di sistemi informativi su larga scala. La metodologia prevalente consiste nella costruzione di un bi-codificatore e nel calcolo della similarità semantica. Tuttavia, tale similarità scalare è difficile da riflettere a sufficienza e ostacola la nostra comprensione dei risultati del recupero. Inoltre, questo processo computazionale enfatizza principalmente le semantica globale e ignora la relazione semantica dettagliata tra la query e il testo complesso nel documento. In questo articolo, proponiamo un nuovo metodo chiamato Recupero Arricchito dalla Generazione (GeAR) che incorpora moduli di fusione e decodifica ben progettati. Ciò consente a GeAR di generare il testo rilevante dai documenti basandosi sulla rappresentazione fusa della query e del documento, apprendendo così a "concentrarsi" sulle informazioni dettagliate. Inoltre, quando utilizzato come recuperatore, GeAR non aggiunge alcun onere computazionale rispetto ai bi-codificatori. Per supportare l'addestramento del nuovo framework, abbiamo introdotto un flusso di lavoro per sintetizzare in modo efficiente dati di alta qualità utilizzando modelli linguistici di grandi dimensioni. GeAR mostra prestazioni competitive di recupero e localizzazione in diversi scenari e set di dati. Inoltre, l'analisi qualitativa e i risultati generati da GeAR forniscono nuove intuizioni sull'interpretazione dei risultati del recupero. Il codice, i dati e i modelli saranno rilasciati dopo aver completato la revisione tecnica per agevolare la ricerca futura.
English
Document retrieval techniques form the foundation for the development of large-scale information systems. The prevailing methodology is to construct a bi-encoder and compute the semantic similarity. However, such scalar similarity is difficult to reflect enough information and impedes our comprehension of the retrieval results. In addition, this computational process mainly emphasizes the global semantics and ignores the fine-grained semantic relationship between the query and the complex text in the document. In this paper, we propose a new method called Generation Augmented Retrieval (GeAR) that incorporates well-designed fusion and decoding modules. This enables GeAR to generate the relevant text from documents based on the fused representation of the query and the document, thus learning to "focus on" the fine-grained information. Also when used as a retriever, GeAR does not add any computational burden over bi-encoders. To support the training of the new framework, we have introduced a pipeline to efficiently synthesize high-quality data by utilizing large language models. GeAR exhibits competitive retrieval and localization performance across diverse scenarios and datasets. Moreover, the qualitative analysis and the results generated by GeAR provide novel insights into the interpretation of retrieval results. The code, data, and models will be released after completing technical review to facilitate future research.

Summary

AI-Generated Summary

PDF222January 9, 2025