ViBe: Ein Text-zu-Video-Benchmark zur Bewertung von Halluzinationen in großen multimodalen Modellen

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

November 16, 2024
Autoren: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI

Zusammenfassung

Die neuesten Entwicklungen bei Large Multimodal Models (LMMs) haben ihre Fähigkeiten erweitert, um auch das Verständnis von Videos einzuschließen. Insbesondere haben Text-to-Video (T2V) Modelle signifikante Fortschritte in Qualität, Verständnis und Dauer gemacht, indem sie sich darauf spezialisiert haben, Videos aus einfachen textuellen Anweisungen zu erstellen. Dennoch produzieren sie häufig halluzinierte Inhalte, die eindeutig darauf hinweisen, dass das Video von KI generiert wurde. Wir stellen ViBe vor: einen groß angelegten Text-to-Video Benchmark für halluzinierte Videos aus T2V Modellen. Wir identifizieren fünf Hauptarten von Halluzinationen: Verschwindendes Subjekt, Numerische Variabilität, Temporale Dysmorphie, Auslassungsfehler und Physische Inkongruenz. Unter Verwendung von 10 Open-Source T2V Modellen haben wir den ersten groß angelegten Datensatz von halluzinierten Videos entwickelt, der 3.782 Videos umfasst, die von Menschen in diese fünf Kategorien eingeteilt wurden. ViBe bietet eine einzigartige Ressource zur Bewertung der Zuverlässigkeit von T2V Modellen und bildet eine Grundlage zur Verbesserung der Erkennung und Milderung von Halluzinationen bei der Videogenerierung. Wir etablieren die Klassifizierung als Basislinie und präsentieren verschiedene Ensemble-Classifier-Konfigurationen, wobei die Kombination von TimeSFormer + CNN die beste Leistung erbringt, mit einer Genauigkeit von 0,345 und einem F1-Score von 0,342. Dieser Benchmark zielt darauf ab, die Entwicklung robuster T2V Modelle voranzutreiben, die Videos produzieren, die genauer mit den Eingabeaufforderungen übereinstimmen.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.

Summary

AI-Generated Summary

PDF63November 21, 2024