RePOPE: Auswirkungen von Annotationsfehlern auf den POPE-Benchmark
RePOPE: Impact of Annotation Errors on the POPE Benchmark
April 22, 2025
Autoren: Yannic Neuhaus, Matthias Hein
cs.AI
Zusammenfassung
Da die Datenannotation kostspielig ist, greifen Benchmark-Datensätze häufig auf Labels aus etablierten Bilddatensätzen zurück. In dieser Arbeit untersuchen wir die Auswirkungen von Label-Fehlern in MSCOCO auf den häufig verwendeten Benchmark für Objekthalluzinationen, POPE. Wir annotieren die Benchmark-Bilder neu und identifizieren ein Ungleichgewicht in den Annotationsfehlern über verschiedene Teilmengen hinweg. Bei der Bewertung mehrerer Modelle anhand der überarbeiteten Labels, die wir als RePOPE bezeichnen, beobachten wir deutliche Verschiebungen in den Modellrankings, was den Einfluss der Label-Qualität unterstreicht. Code und Daten sind unter https://github.com/YanNeu/RePOPE verfügbar.
English
Since data annotation is costly, benchmark datasets often incorporate labels
from established image datasets. In this work, we assess the impact of label
errors in MSCOCO on the frequently used object hallucination benchmark POPE. We
re-annotate the benchmark images and identify an imbalance in annotation errors
across different subsets. Evaluating multiple models on the revised labels,
which we denote as RePOPE, we observe notable shifts in model rankings,
highlighting the impact of label quality. Code and data are available at
https://github.com/YanNeu/RePOPE .Summary
AI-Generated Summary