Verdrinken in Documenten: Gevolgen van het Schalen van Reranker Inferentie

Samenvatting

Rerankers, meestal cross-encoders, worden vaak gebruikt om de documenten opnieuw te beoordelen die zijn opgehaald door goedkopere initiële IR-systemen. Dit komt doordat, hoewel duur, wordt aangenomen dat rerankers effectiever zijn. We dagen deze aanname uit door de prestaties van rerankers te meten voor volledige opvraging, niet alleen het opnieuw beoordelen van de opvraging in de eerste fase. Onze experimenten onthullen een verrassende trend: de beste bestaande rerankers leveren afnemende meeropbrengsten bij het beoordelen van progressief meer documenten en de kwaliteit daalt daadwerkelijk na een bepaalde limiet. In feite kunnen rerankers in deze context vaak hoge scores toekennen aan documenten zonder enige lexicale of semantische overlap met de zoekopdracht. We hopen dat onze bevindingen toekomstig onderzoek zullen stimuleren om reranking te verbeteren.

English

Rerankers, typically cross-encoders, are often used to re-score the documents retrieved by cheaper initial IR systems. This is because, though expensive, rerankers are assumed to be more effective. We challenge this assumption by measuring reranker performance for full retrieval, not just re-scoring first-stage retrieval. Our experiments reveal a surprising trend: the best existing rerankers provide diminishing returns when scoring progressively more documents and actually degrade quality beyond a certain limit. In fact, in this setting, rerankers can frequently assign high scores to documents with no lexical or semantic overlap with the query. We hope that our findings will spur future research to improve reranking.

Verdrinken in Documenten: Gevolgen van het Schalen van Reranker Inferentie

Drowning in Documents: Consequences of Scaling Reranker Inference

Samenvatting

Summary

Support