Noyade dans les documents : Conséquences de l'escalade de l'inférence du réordonnancement.
Drowning in Documents: Consequences of Scaling Reranker Inference
November 18, 2024
Auteurs: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Résumé
Les reclassificateurs, généralement des encodeurs croisés, sont souvent utilisés pour re-noter les documents récupérés par des systèmes RI initiaux moins coûteux. Cela est dû au fait que, bien que coûteux, on suppose que les reclassificateurs sont plus efficaces. Nous remettons en question cette hypothèse en mesurant les performances des reclassificateurs pour la récupération complète, et non seulement pour la re-notation de la récupération de la première étape. Nos expériences révèlent une tendance surprenante : les meilleurs reclassificateurs existants offrent des rendements décroissants lors de la notation de documents de manière progressive et dégradent en réalité la qualité au-delà d'une certaine limite. En fait, dans ce contexte, les reclassificateurs peuvent fréquemment attribuer des scores élevés à des documents sans chevauchement lexical ou sémantique avec la requête. Nous espérons que nos découvertes stimuleront la recherche future pour améliorer le reclassement.
English
Rerankers, typically cross-encoders, are often used to re-score the documents
retrieved by cheaper initial IR systems. This is because, though expensive,
rerankers are assumed to be more effective. We challenge this assumption by
measuring reranker performance for full retrieval, not just re-scoring
first-stage retrieval. Our experiments reveal a surprising trend: the best
existing rerankers provide diminishing returns when scoring progressively more
documents and actually degrade quality beyond a certain limit. In fact, in this
setting, rerankers can frequently assign high scores to documents with no
lexical or semantic overlap with the query. We hope that our findings will spur
future research to improve reranking.Summary
AI-Generated Summary