GeAR: Generazione potenziata del recupero
GeAR: Generation Augmented Retrieval
January 6, 2025
Autori: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Abstract
Le tecniche di recupero documenti costituiscono la base per lo sviluppo di sistemi informativi su larga scala. La metodologia prevalente consiste nella costruzione di un bi-codificatore e nel calcolo della similarità semantica. Tuttavia, tale similarità scalare è difficile da riflettere a sufficienza e ostacola la nostra comprensione dei risultati del recupero. Inoltre, questo processo computazionale enfatizza principalmente le semantica globale e ignora la relazione semantica dettagliata tra la query e il testo complesso nel documento. In questo articolo, proponiamo un nuovo metodo chiamato Recupero Arricchito dalla Generazione (GeAR) che incorpora moduli di fusione e decodifica ben progettati. Ciò consente a GeAR di generare il testo rilevante dai documenti basandosi sulla rappresentazione fusa della query e del documento, apprendendo così a "concentrarsi" sulle informazioni dettagliate. Inoltre, quando utilizzato come recuperatore, GeAR non aggiunge alcun onere computazionale rispetto ai bi-codificatori. Per supportare l'addestramento del nuovo framework, abbiamo introdotto un flusso di lavoro per sintetizzare in modo efficiente dati di alta qualità utilizzando modelli linguistici di grandi dimensioni. GeAR mostra prestazioni competitive di recupero e localizzazione in diversi scenari e set di dati. Inoltre, l'analisi qualitativa e i risultati generati da GeAR forniscono nuove intuizioni sull'interpretazione dei risultati del recupero. Il codice, i dati e i modelli saranno rilasciati dopo aver completato la revisione tecnica per agevolare la ricerca futura.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary