CapArena: Benchmarking und Analyse detaillierter Bildbeschreibungen im Zeitalter der LLMs
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
March 16, 2025
Autoren: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI
Zusammenfassung
Die Bildbeschreibung stellt seit langem eine Herausforderung in der Vision-Language-Forschung dar. Mit dem Aufstieg von LLMs (Large Language Models) generieren moderne Vision-Language-Modelle (VLMs) detaillierte und umfassende Bildbeschreibungen. Die Bewertung der Qualität solcher Beschreibungen bleibt jedoch ungelöst. Diese Arbeit behandelt zwei zentrale Fragen: (1) Wie gut schneiden aktuelle VLMs bei der Bildbeschreibung tatsächlich ab, insbesondere im Vergleich zu Menschen? Wir haben CapArena entwickelt, eine Plattform mit über 6000 paarweisen Beschreibungsvergleichen und hochwertigen menschlichen Präferenzbewertungen. Unsere Arena-artige Bewertung markiert einen Meilenstein und zeigt, dass führende Modelle wie GPT-4o die menschliche Leistung erreichen oder sogar übertreffen, während die meisten Open-Source-Modelle zurückbleiben. (2) Können automatisierte Metriken die Qualität detaillierter Beschreibungen zuverlässig bewerten? Unter Verwendung menschlicher Annotationen aus CapArena evaluieren wir traditionelle und neuere Beschreibungsmetriken sowie VLM-as-a-Judge. Unsere Analyse zeigt, dass einige Metriken (z. B. METEOR) eine akzeptable Übereinstimmung mit menschlichen Bewertungen auf Beschreibungsebene aufweisen, ihre systematischen Verzerrungen jedoch zu Inkonsistenzen in der Modellrangfolge führen. Im Gegensatz dazu zeigt VLM-as-a-Judge eine robuste Unterscheidungsfähigkeit sowohl auf Beschreibungs- als auch auf Modellebene. Aufbauend auf diesen Erkenntnissen veröffentlichen wir CapArena-Auto, einen präzisen und effizienten automatisierten Benchmark für detaillierte Bildbeschreibungen, der eine Korrelation von 94,3 % mit menschlichen Rangfolgen bei nur 4 US-Dollar pro Test erreicht. Daten und Ressourcen werden unter https://caparena.github.io open-source bereitgestellt.
English
Image captioning has been a longstanding challenge in vision-language
research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate
detailed and comprehensive image descriptions. However, benchmarking the
quality of such captions remains unresolved. This paper addresses two key
questions: (1) How well do current VLMs actually perform on image captioning,
particularly compared to humans? We built CapArena, a platform with over 6000
pairwise caption battles and high-quality human preference votes. Our
arena-style evaluation marks a milestone, showing that leading models like
GPT-4o achieve or even surpass human performance, while most open-source models
lag behind. (2) Can automated metrics reliably assess detailed caption quality?
Using human annotations from CapArena, we evaluate traditional and recent
captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while
some metrics (e.g., METEOR) show decent caption-level agreement with humans,
their systematic biases lead to inconsistencies in model ranking. In contrast,
VLM-as-a-Judge demonstrates robust discernment at both the caption and model
levels. Building on these insights, we release CapArena-Auto, an accurate and
efficient automated benchmark for detailed captioning, achieving 94.3%
correlation with human rankings at just $4 per test. Data and resources will be
open-sourced at https://caparena.github.io.Summary
AI-Generated Summary