RARe: Ophalen Verrijkt Ophalen met Voorbeelden in Context
RARe: Retrieval Augmented Retrieval with In-Context Examples
October 26, 2024
Auteurs: Atula Tejaswi, Yoonsang Lee, Sujay Sanghavi, Eunsol Choi
cs.AI
Samenvatting
We onderzoeken of in-context voorbeelden, veelgebruikt in decoder-only taalmodellen (LLM's), de prestaties van embeddingmodellen kunnen verbeteren in ophaaltaken. In tegenstelling tot bij LLM's werkt het naïef vooraf toevoegen van in-context voorbeelden (query-documentparen) aan de doelquery bij inferentie niet direct. We introduceren een eenvoudige aanpak om ophalers in staat te stellen in-context voorbeelden te gebruiken. Onze aanpak, RARe, verfijnt een voorgeleerd model met in-context voorbeelden waarvan de query semantisch vergelijkbaar is met de doelquery. Dit kan worden toegepast om verschillende basismodellen aan te passen (d.w.z. decoder-only taalmodellen, ophalers) en behaalt consequent prestatieverbeteringen tot +2.72% nDCG over verschillende open-domain ophaaldatasets (BeIR, RAR-b). In het bijzonder vinden we dat RARe een sterkere generalisatie buiten het domein vertoont in vergelijking met modellen die queries zonder in-context voorbeelden gebruiken, vergelijkbaar met wat wordt gezien bij in-context leren in LLM's. We bieden verder analyse van de ontwerpkeuzes van in-context voorbeeldvermeerdering en leggen de basis voor toekomstig werk op dit gebied.
English
We investigate whether in-context examples, widely used in decoder-only
language models (LLMs), can improve embedding model performance in retrieval
tasks. Unlike in LLMs, naively prepending in-context examples (query-document
pairs) to the target query at inference time does not work out of the box. We
introduce a simple approach to enable retrievers to use in-context examples.
Our approach, RARe, finetunes a pre-trained model with in-context examples
whose query is semantically similar to the target query. This can be applied to
adapt various base architectures (i.e., decoder-only language models, retriever
models) and consistently achieves performance gains of up to +2.72% nDCG across
various open-domain retrieval datasets (BeIR, RAR-b). In particular, we find
RARe exhibits stronger out-of-domain generalization compared to models using
queries without in-context examples, similar to what is seen for in-context
learning in LLMs. We further provide analysis on the design choices of
in-context example augmentation and lay the foundation for future work in this
space.Summary
AI-Generated Summary