Malen mit Worten: Verbesserung detaillierter Bildbeschreibungen durch Benchmark und Alignment-Lernen
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
March 10, 2025
Autoren: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI
Zusammenfassung
Die Bildbeschreibung ist seit langem eine zentrale Aufgabe im Bereich des visuellen Verständnisses, wobei jüngste Fortschritte in Vision-Language-Modellen (VLMs) die Fähigkeit zur Erstellung detaillierter Bildbeschreibungen erheblich verbessert haben. Die Bewertung detaillierter Bildbeschreibungen bleibt jedoch aufgrund veralteter Bewertungsmetriken und grober Annotationen weitgehend unerforscht. In diesem Artikel stellen wir DeCapBench zusammen mit einer neuen Metrik, DCScore, vor, die speziell für detaillierte Beschreibungsaufgaben entwickelt wurde. DCScore bewertet Halluzinationen und feinkörnige Vollständigkeit, indem Antworten in die kleinsten eigenständigen Einheiten, sogenannte primitive Informationseinheiten, zerlegt und einzeln bewertet werden. Unsere Auswertung zeigt, dass DCScore stärker mit der menschlichen Beurteilung übereinstimmt als andere regelbasierte oder modellbasierte Metriken. Gleichzeitig weist DeCapBench eine hohe Korrelation mit den Ergebnissen der VLM-Arena bei beschreibenden Aufgaben auf und übertrifft bestehende Benchmarks für Vision-Language-Modelle. Zusätzlich präsentieren wir eine automatische Methode zur Sammlung feinkörniger Rückmeldungen, FeedQuill, für die Präferenzoptimierung basierend auf unserer fortschrittlichen Metrik, die robuste Generalisierungsfähigkeiten über automatisch generierte Präferenzdaten hinweg zeigt. Umfangreiche Experimente mit mehreren VLMs zeigen, dass unsere Methode nicht nur Halluzinationen signifikant reduziert, sondern auch die Leistung über verschiedene Benchmarks hinweg verbessert und dabei eine überlegene Detailbeschreibungsleistung erzielt, die GPT-4o übertrifft.
English
Image captioning has long been a pivotal task in visual understanding, with
recent advancements in vision-language models (VLMs) significantly enhancing
the ability to generate detailed image captions. However, the evaluation of
detailed image captioning remains underexplored due to outdated evaluation
metrics and coarse annotations. In this paper, we introduce DeCapBench along
with a novel metric, DCScore, specifically designed for detailed captioning
tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by
deconstructing responses into the smallest self-sufficient units, termed
primitive information units, and assessing them individually. Our evaluation
shows that DCScore aligns more closely with human judgment than other
rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high
correlation with VLM arena results on descriptive tasks, surpassing existing
benchmarks for vision-language models. Additionally, we present an automatic
fine-grained feedback collection method, FeedQuill, for preference optimization
based on our advanced metric, showing robust generalization capabilities across
auto-generated preference data. Extensive experiments on multiple VLMs
demonstrate that our method not only significantly reduces hallucinations but
also enhances performance across various benchmarks, achieving superior detail
captioning performance while surpassing GPT-4o.Summary
AI-Generated Summary