Perplexity-Falle: PLM-basierte Retriever bewerten Dokumente mit niedriger Perplexität übermäßig hoch
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
March 11, 2025
Autoren: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
cs.AI
Zusammenfassung
Frühere Studien haben gezeigt, dass auf PLM (Pre-trained Language Models) basierte Retrieval-Modelle eine Präferenz für LLM-generierte Inhalte aufweisen und diesen Dokumenten höhere Relevanzwerte zuweisen, selbst wenn ihre semantische Qualität mit von Menschen verfassten Inhalten vergleichbar ist. Dieses Phänomen, bekannt als Quellenverzerrung (Source Bias), gefährdet die nachhaltige Entwicklung des Informationszugriffssystems. Die zugrunde liegenden Ursachen dieser Quellenverzerrung sind jedoch noch unerforscht. In dieser Arbeit erklären wir den Prozess der Informationsbeschaffung anhand eines kausalen Graphen und entdecken, dass PLM-basierte Retrieval-Systeme Perplexitätsmerkmale für die Relevanzschätzung erlernen, wodurch sie Dokumente mit niedriger Perplexität höher einstufen und so die Quellenverzerrung verursachen. Eine theoretische Analyse zeigt weiterhin, dass dieses Phänomen auf die positive Korrelation zwischen den Gradienten der Verlustfunktionen in der Sprachmodellierungsaufgabe und der Retrieval-Aufgabe zurückzuführen ist. Basierend auf dieser Analyse wird eine kausal inspirierte Methode zur Entzerrung zur Inferenzzeit vorgeschlagen, genannt Causal Diagnosis and Correction (CDC). CDC diagnostiziert zunächst den Verzerrungseffekt der Perplexität und trennt dann diesen Verzerrungseffekt vom gesamten geschätzten Relevanzwert. Experimentelle Ergebnisse in drei Domänen demonstrieren die überlegene Entzerrungswirksamkeit von CDC und unterstreichen die Gültigkeit des vorgeschlagenen Erklärungsrahmens. Die Quellcodes sind unter https://github.com/WhyDwelledOnAi/Perplexity-Trap verfügbar.
English
Previous studies have found that PLM-based retrieval models exhibit a
preference for LLM-generated content, assigning higher relevance scores to
these documents even when their semantic quality is comparable to human-written
ones. This phenomenon, known as source bias, threatens the sustainable
development of the information access ecosystem. However, the underlying causes
of source bias remain unexplored. In this paper, we explain the process of
information retrieval with a causal graph and discover that PLM-based
retrievers learn perplexity features for relevance estimation, causing source
bias by ranking the documents with low perplexity higher. Theoretical analysis
further reveals that the phenomenon stems from the positive correlation between
the gradients of the loss functions in language modeling task and retrieval
task. Based on the analysis, a causal-inspired inference-time debiasing method
is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses
the bias effect of the perplexity and then separates the bias effect from the
overall estimated relevance score. Experimental results across three domains
demonstrate the superior debiasing effectiveness of CDC, emphasizing the
validity of our proposed explanatory framework. Source codes are available at
https://github.com/WhyDwelledOnAi/Perplexity-Trap.Summary
AI-Generated Summary