Ertrinken in Dokumenten: Konsequenzen der Skalierung von Reranker-Inferenz

Zusammenfassung

Reranker, in der Regel Cross-Encoder, werden häufig verwendet, um die Dokumente neu zu bewerten, die von kostengünstigeren anfänglichen IR-Systemen abgerufen wurden. Dies liegt daran, dass Reranker, obwohl teuer, als effektiver angesehen werden. Wir fordern diese Annahme heraus, indem wir die Leistung des Rerankers für die vollständige Abfrage, nicht nur die Neubewertung der Abfrage in der ersten Stufe, messen. Unsere Experimente zeigen einen überraschenden Trend: Die besten vorhandenen Reranker liefern abnehmende Erträge, wenn sie zunehmend mehr Dokumente bewerten, und verschlechtern tatsächlich die Qualität über eine bestimmte Grenze hinaus. Tatsächlich können Reranker in diesem Szenario häufig hohen Punktzahlen für Dokumente zuweisen, die keine lexikalische oder semantische Überlappung mit der Abfrage aufweisen. Wir hoffen, dass unsere Ergebnisse zukünftige Forschung zur Verbesserung des Rerankings anregen werden.

English

Rerankers, typically cross-encoders, are often used to re-score the documents retrieved by cheaper initial IR systems. This is because, though expensive, rerankers are assumed to be more effective. We challenge this assumption by measuring reranker performance for full retrieval, not just re-scoring first-stage retrieval. Our experiments reveal a surprising trend: the best existing rerankers provide diminishing returns when scoring progressively more documents and actually degrade quality beyond a certain limit. In fact, in this setting, rerankers can frequently assign high scores to documents with no lexical or semantic overlap with the query. We hope that our findings will spur future research to improve reranking.

Ertrinken in Dokumenten: Konsequenzen der Skalierung von Reranker-Inferenz

Drowning in Documents: Consequences of Scaling Reranker Inference

Zusammenfassung

Summary

Support