Annegare nei Documenti: Conseguenze della Scalabilità dell'Inferenza del Reranker
Drowning in Documents: Consequences of Scaling Reranker Inference
November 18, 2024
Autori: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Abstract
I reranker, tipicamente cross-encoder, vengono spesso utilizzati per riesaminare i documenti recuperati dai sistemi IR iniziali più economici. Ciò avviene perché, sebbene costosi, si presume che i reranker siano più efficaci. Sfideremo questa ipotesi misurando le prestazioni del reranker per il recupero completo, non solo per il riesame del recupero di prima fase. I nostri esperimenti rivelano una tendenza sorprendente: i migliori reranker esistenti forniscono rendimenti decrescenti quando valutano progressivamente più documenti e in realtà degradano la qualità oltre un certo limite. Infatti, in questo contesto, i reranker possono spesso assegnare punteggi elevati a documenti senza sovrapposizione lessicale o semantica con la query. Ci auguriamo che le nostre scoperte stimolino futura ricerca per migliorare il reranking.
English
Rerankers, typically cross-encoders, are often used to re-score the documents
retrieved by cheaper initial IR systems. This is because, though expensive,
rerankers are assumed to be more effective. We challenge this assumption by
measuring reranker performance for full retrieval, not just re-scoring
first-stage retrieval. Our experiments reveal a surprising trend: the best
existing rerankers provide diminishing returns when scoring progressively more
documents and actually degrade quality beyond a certain limit. In fact, in this
setting, rerankers can frequently assign high scores to documents with no
lexical or semantic overlap with the query. We hope that our findings will spur
future research to improve reranking.Summary
AI-Generated Summary