ViBe : Un banc d'essai texte-vidéo pour évaluer l'hallucination dans les grands modèles multimodaux.

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

November 16, 2024
Auteurs: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI

Résumé

Les derniers développements des Grands Modèles Multimodaux (LMMs) ont élargi leurs capacités pour inclure la compréhension vidéo. Plus précisément, les modèles Texte-vers-Vidéo (T2V) ont réalisé des progrès significatifs en termes de qualité, de compréhension et de durée, se démarquant dans la création de vidéos à partir de simples indications textuelles. Cependant, ils produisent encore fréquemment du contenu halluciné qui signale clairement que la vidéo est générée par une IA. Nous introduisons ViBe : un Benchmark Texte-vers-Vidéo à grande échelle de vidéos hallucinées par les modèles T2V. Nous identifions cinq principaux types d'hallucinations : Disparition du Sujet, Variabilité Numérique, Dysmorphie Temporelle, Erreur d'Omission et Incongruité Physique. En utilisant 10 modèles T2V open-source, nous avons développé le premier ensemble de données à grande échelle de vidéos hallucinées, comprenant 3 782 vidéos annotées par des humains dans ces cinq catégories. ViBe offre une ressource unique pour évaluer la fiabilité des modèles T2V et fournit une base pour améliorer la détection et l'atténuation des hallucinations dans la génération de vidéos. Nous établissons la classification comme référence et présentons diverses configurations d'ensemble de classificateurs, avec la combinaison TimeSFormer + CNN offrant les meilleures performances, atteignant une précision de 0,345 et un score F1 de 0,342. Ce benchmark vise à stimuler le développement de modèles T2V robustes produisant des vidéos plus fidèlement alignées sur les indications d'entrée.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.

Summary

AI-Generated Summary

PDF63November 21, 2024