UVE: Sind MLLMs vereinheitlichte Bewertungssysteme für KI-generierte Videos?

Zusammenfassung

Mit dem rasanten Wachstum von Video-Generierungsmodellen (VGMs) ist es entscheidend, zuverlässige und umfassende automatische Metriken für KI-generierte Videos (AIGVs) zu entwickeln. Bisherige Methoden verwenden entweder vorgefertigte Modelle, die für andere Aufgaben optimiert sind, oder stützen sich auf menschliche Bewertungsdaten, um spezialisierte Evaluatoren zu trainieren. Diese Ansätze sind auf spezifische Bewertungsaspekte beschränkt und lassen sich nur schwer mit den zunehmenden Anforderungen an feinere und umfassendere Bewertungen skalieren. Um dieses Problem zu lösen, untersucht diese Arbeit die Machbarkeit der Verwendung multimodaler großer Sprachmodelle (MLLMs) als einheitliche Evaluatoren für AIGVs, indem ihre starken visuellen Wahrnehmungs- und Sprachverständnisfähigkeiten genutzt werden. Um die Leistung automatischer Metriken bei der einheitlichen Bewertung von AIGVs zu bewerten, führen wir ein Benchmark namens UVE-Bench ein. UVE-Bench sammelt Videos, die von modernsten VGMs generiert wurden, und bietet paarweise menschliche Präferenzannotationen über 15 Bewertungsaspekte hinweg. Mit UVE-Bench evaluieren wir umfassend 16 MLLMs. Unsere empirischen Ergebnisse zeigen, dass fortgeschrittene MLLMs (z. B. Qwen2VL-72B und InternVL2.5-78B) zwar noch hinter menschlichen Bewertern zurückbleiben, aber vielversprechende Fähigkeiten in der einheitlichen Bewertung von AIGVs demonstrieren und dabei bestehende spezialisierte Bewertungsmethoden deutlich übertreffen. Zusätzlich führen wir eine detaillierte Analyse der Schlüsselentscheidungen durch, die die Leistung von MLLM-gestützten Evaluatoren beeinflussen, und bieten wertvolle Einblicke für zukünftige Forschungen zur AIGV-Bewertung. Der Code ist unter https://github.com/bytedance/UVE verfügbar.

English

With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 16 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation. The code is available at https://github.com/bytedance/UVE.

UVE: Sind MLLMs vereinheitlichte Bewertungssysteme für KI-generierte Videos?

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

Zusammenfassung

Summary

Support