ViBe: Een tekst-naar-video benchmark voor het evalueren van hallucinatie in grote multimodale modellen.

ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

November 16, 2024
Auteurs: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI

Samenvatting

De laatste ontwikkelingen in Grote Multimodale Modellen (GMM's) hebben hun mogelijkheden verbreed om ook video begrip te omvatten. Specifiek hebben Tekst-naar-video (T2V) modellen aanzienlijke vooruitgang geboekt op het gebied van kwaliteit, begrip en duur, waarbij ze uitblinken in het maken van video's op basis van eenvoudige tekstuele aanwijzingen. Toch produceren ze nog steeds vaak gehallucineerde inhoud die duidelijk aangeeft dat de video door AI is gegenereerd. Wij introduceren ViBe: een grootschalige Tekst-naar-Video Benchmark van gehallucineerde video's door T2V modellen. We identificeren vijf belangrijke soorten hallucinaties: Verdwenen Onderwerp, Numerieke Variabiliteit, Temporele Dysmorfie, Weggelaten Fout, en Fysieke Incongruentie. Met behulp van 10 open-source T2V modellen hebben we het eerste grootschalige dataset van gehallucineerde video's ontwikkeld, bestaande uit 3,782 video's geannoteerd door mensen in deze vijf categorieën. ViBe biedt een unieke bron voor het evalueren van de betrouwbaarheid van T2V modellen en legt een basis voor het verbeteren van het detecteren en verminderen van hallucinaties bij videogeneratie. We stellen classificatie vast als een basislijn en presenteren verschillende ensemble classifier configuraties, waarbij de TimeSFormer + CNN combinatie de beste prestaties levert, met een nauwkeurigheid van 0.345 en een F1-score van 0.342. Deze benchmark heeft tot doel de ontwikkeling van robuuste T2V modellen te stimuleren die video's produceren die nauwkeuriger zijn afgestemd op de invoeraanwijzingen.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.

Summary

AI-Generated Summary

PDF63November 21, 2024