Raffinamento del recupero multi-task per RAG specifico del dominio ed efficiente
Multi-task retriever fine-tuning for domain-specific and efficient RAG
January 8, 2025
Autori: Patrice Béchard, Orlando Marquez Ayala
cs.AI
Abstract
Il Generatore Potenziato da Recupero (RAG) è diventato onnipresente nella distribuzione dei Grandi Modelli Linguistici (LLM), poiché può affrontare limitazioni tipiche come la generazione di informazioni allucinate o obsolete. Tuttavia, quando si costruiscono applicazioni RAG del mondo reale, sorgono questioni pratiche. In primo luogo, le informazioni recuperate sono generalmente specifiche del dominio. Poiché è computazionalmente costoso perfezionare i LLM, è più fattibile perfezionare il recupero per migliorare la qualità dei dati inclusi nell'input del LLM. In secondo luogo, man mano che più applicazioni vengono distribuite nello stesso sistema del mondo reale, non si può permettere di distribuire recuperatori separati. Inoltre, queste applicazioni RAG recuperano normalmente diversi tipi di dati. La nostra soluzione è perfezionare istruzioni un piccolo codificatore di recupero su una varietà di compiti specifici del dominio per consentirci di distribuire un codificatore che possa servire molti casi d'uso, ottenendo così basso costo, scalabilità e velocità. Mostriamo come questo codificatore generalizzi a impostazioni fuori dal dominio così come a un compito di recupero non visto su casi d'uso aziendali del mondo reale.
English
Retrieval-Augmented Generation (RAG) has become ubiquitous when deploying
Large Language Models (LLMs), as it can address typical limitations such as
generating hallucinated or outdated information. However, when building
real-world RAG applications, practical issues arise. First, the retrieved
information is generally domain-specific. Since it is computationally expensive
to fine-tune LLMs, it is more feasible to fine-tune the retriever to improve
the quality of the data included in the LLM input. Second, as more applications
are deployed in the same real-world system, one cannot afford to deploy
separate retrievers. Moreover, these RAG applications normally retrieve
different kinds of data. Our solution is to instruction fine-tune a small
retriever encoder on a variety of domain-specific tasks to allow us to deploy
one encoder that can serve many use cases, thereby achieving low-cost,
scalability, and speed. We show how this encoder generalizes to out-of-domain
settings as well as to an unseen retrieval task on real-world enterprise use
cases.Summary
AI-Generated Summary