GeAR: Geração de Recuperação Aprimorada
GeAR: Generation Augmented Retrieval
January 6, 2025
Autores: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Resumo
As técnicas de recuperação de documentos formam a base para o desenvolvimento de sistemas de informação em larga escala. A metodologia predominante é construir um bi-codificador e calcular a similaridade semântica. No entanto, essa similaridade escalar é difícil de refletir informações suficientes e dificulta a nossa compreensão dos resultados da recuperação. Além disso, esse processo computacional enfatiza principalmente a semântica global e ignora o relacionamento semântico detalhado entre a consulta e o texto complexo no documento. Neste artigo, propomos um novo método chamado Recuperação com Aumento de Geração (GeAR) que incorpora módulos de fusão e decodificação bem projetados. Isso permite que o GeAR gere o texto relevante dos documentos com base na representação fundida da consulta e do documento, aprendendo assim a "focar" nas informações detalhadas. Além disso, ao ser usado como um recuperador, o GeAR não adiciona nenhuma carga computacional sobre os bi-codificadores. Para apoiar o treinamento do novo framework, introduzimos um pipeline para sintetizar eficientemente dados de alta qualidade utilizando grandes modelos de linguagem. O GeAR apresenta um desempenho competitivo de recuperação e localização em diversos cenários e conjuntos de dados. Além disso, a análise qualitativa e os resultados gerados pelo GeAR fornecem novas perspectivas sobre a interpretação dos resultados de recuperação. O código, os dados e os modelos serão disponibilizados após a conclusão da revisão técnica para facilitar pesquisas futuras.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary