UVE: Sind MLLMs vereinheitlichte Bewertungssysteme für KI-generierte Videos?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?
March 13, 2025
Autoren: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI
Zusammenfassung
Mit dem rasanten Wachstum von Video-Generierungsmodellen (VGMs) ist es entscheidend, zuverlässige und umfassende automatische Metriken für KI-generierte Videos (AIGVs) zu entwickeln. Bisherige Methoden verwenden entweder vorgefertigte Modelle, die für andere Aufgaben optimiert sind, oder stützen sich auf menschliche Bewertungsdaten, um spezialisierte Evaluatoren zu trainieren. Diese Ansätze sind auf spezifische Bewertungsaspekte beschränkt und lassen sich nur schwer mit den zunehmenden Anforderungen an feinere und umfassendere Bewertungen skalieren. Um dieses Problem zu lösen, untersucht diese Arbeit die Machbarkeit der Verwendung multimodaler großer Sprachmodelle (MLLMs) als einheitliche Evaluatoren für AIGVs, indem ihre starken visuellen Wahrnehmungs- und Sprachverständnisfähigkeiten genutzt werden. Um die Leistung automatischer Metriken bei der einheitlichen Bewertung von AIGVs zu bewerten, führen wir ein Benchmark namens UVE-Bench ein. UVE-Bench sammelt Videos, die von modernsten VGMs generiert wurden, und bietet paarweise menschliche Präferenzannotationen über 15 Bewertungsaspekte hinweg. Mit UVE-Bench evaluieren wir umfassend 16 MLLMs. Unsere empirischen Ergebnisse zeigen, dass fortgeschrittene MLLMs (z. B. Qwen2VL-72B und InternVL2.5-78B) zwar noch hinter menschlichen Bewertern zurückbleiben, aber vielversprechende Fähigkeiten in der einheitlichen Bewertung von AIGVs demonstrieren und dabei bestehende spezialisierte Bewertungsmethoden deutlich übertreffen. Zusätzlich führen wir eine detaillierte Analyse der Schlüsselentscheidungen durch, die die Leistung von MLLM-gestützten Evaluatoren beeinflussen, und bieten wertvolle Einblicke für zukünftige Forschungen zur AIGV-Bewertung. Der Code ist unter https://github.com/bytedance/UVE verfügbar.
English
With the rapid growth of video generative models (VGMs), it is essential to
develop reliable and comprehensive automatic metrics for AI-generated videos
(AIGVs). Existing methods either use off-the-shelf models optimized for other
tasks or rely on human assessment data to train specialized evaluators. These
approaches are constrained to specific evaluation aspects and are difficult to
scale with the increasing demands for finer-grained and more comprehensive
evaluations. To address this issue, this work investigates the feasibility of
using multimodal large language models (MLLMs) as a unified evaluator for
AIGVs, leveraging their strong visual perception and language understanding
capabilities. To evaluate the performance of automatic metrics in unified AIGV
evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects
videos generated by state-of-the-art VGMs and provides pairwise human
preference annotations across 15 evaluation aspects. Using UVE-Bench, we
extensively evaluate 16 MLLMs. Our empirical results suggest that while
advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human
evaluators, they demonstrate promising ability in unified AIGV evaluation,
significantly surpassing existing specialized evaluation methods. Additionally,
we conduct an in-depth analysis of key design choices that impact the
performance of MLLM-driven evaluators, offering valuable insights for future
research on AIGV evaluation. The code is available at
https://github.com/bytedance/UVE.Summary
AI-Generated Summary