ChatPaper.aiChatPaper

ETVA: Bewertung der Text-zu-Video-Ausrichtung durch feinkörnige Fragegenerierung und Beantwortung

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

March 21, 2025
Autoren: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI

Zusammenfassung

Die präzise Bewertung der semantischen Ausrichtung zwischen Textprompts und generierten Videos bleibt eine Herausforderung in der Text-zu-Video (T2V)-Generierung. Bestehende Metriken zur Text-zu-Video-Ausrichtung wie CLIPScore erzeugen lediglich grobkörnige Bewertungen ohne feinkörnige Ausrichtungsdetails, was nicht mit den menschlichen Präferenzen übereinstimmt. Um diese Einschränkung zu überwinden, schlagen wir ETVA vor, eine neuartige Evaluationsmethode für die Text-zu-Video-Ausrichtung durch feinkörnige Fragengenerierung und -beantwortung. Zunächst analysiert ein Multi-Agenten-System Prompts in semantische Szenengraphen, um atomare Fragen zu generieren. Anschließend entwerfen wir ein wissensgestütztes, mehrstufiges Rahmenwerk für die Beantwortung von Fragen, bei dem ein unterstützendes LLM zunächst relevantes Allgemeinwissen (z.B. physikalische Gesetze) abruft und dann ein Video-LLM die generierten Fragen durch einen mehrstufigen Denkmechanismus beantwortet. Umfangreiche Experimente zeigen, dass ETVA einen Spearman-Korrelationskoeffizienten von 58,47 erreicht, was eine deutlich höhere Korrelation mit menschlichen Bewertungen aufweist als bestehende Metriken, die lediglich 31,0 erreichen. Wir erstellen außerdem einen umfassenden Benchmark, der speziell für die Bewertung der Text-zu-Video-Ausrichtung entwickelt wurde und 2k diverse Prompts sowie 12k atomare Fragen aus 10 Kategorien umfasst. Durch eine systematische Bewertung von 15 bestehenden Text-zu-Video-Modellen identifizieren wir deren wesentliche Fähigkeiten und Grenzen und ebnen so den Weg für die nächste Generation der T2V-Generierung.
English
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

Summary

AI-Generated Summary

PDF112March 24, 2025