RePOPE: Impact van annotatiefouten op de POPE-benchmark
RePOPE: Impact of Annotation Errors on the POPE Benchmark
April 22, 2025
Auteurs: Yannic Neuhaus, Matthias Hein
cs.AI
Samenvatting
Omdat data-annotatie kostbaar is, nemen benchmarkdatasets vaak labels over van gevestigde beelddatasets. In dit werk evalueren we de impact van labelfouten in MSCOCO op het veelgebruikte benchmark voor objecthallucinatie, POPE. We herannoteren de benchmarkafbeeldingen en identificeren een onbalans in annotatiefouten tussen verschillende subsets. Door meerdere modellen te evalueren op de herziene labels, die we aanduiden als RePOPE, observeren we opmerkelijke verschuivingen in modelrangschikkingen, wat het belang van labelkwaliteit onderstreept. Code en data zijn beschikbaar op https://github.com/YanNeu/RePOPE.
English
Since data annotation is costly, benchmark datasets often incorporate labels
from established image datasets. In this work, we assess the impact of label
errors in MSCOCO on the frequently used object hallucination benchmark POPE. We
re-annotate the benchmark images and identify an imbalance in annotation errors
across different subsets. Evaluating multiple models on the revised labels,
which we denote as RePOPE, we observe notable shifts in model rankings,
highlighting the impact of label quality. Code and data are available at
https://github.com/YanNeu/RePOPE .Summary
AI-Generated Summary