ViBe: un benchmark testo-video per valutare l'allucinazione nei grandi modelli multimodali.
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
November 16, 2024
Autori: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI
Abstract
Gli ultimi sviluppi nei Large Multimodal Models (LMMs) hanno ampliato le loro capacità includendo la comprensione dei video. In particolare, i modelli Text-to-video (T2V) hanno compiuto progressi significativi in qualità, comprensione e durata, eccellendo nella creazione di video da semplici prompt testuali. Tuttavia, producono ancora frequentemente contenuti allucinatori che indicano chiaramente che il video è generato dall'IA. Presentiamo ViBe: un Benchmark su larga scala di Text-to-Video di video allucinatori dai modelli T2V. Identifichiamo cinque principali tipi di allucinazione: Soggetto che Scompare, Variabilità Numerica, Disforia Temporale, Errore di Omissione e Incongruenza Fisica. Utilizzando 10 modelli T2V open-source, abbiamo sviluppato il primo dataset su larga scala di video allucinatori, comprendente 3.782 video annotati da esseri umani in queste cinque categorie. ViBe offre una risorsa unica per valutare l'affidabilità dei modelli T2V e fornisce una base per migliorare la rilevazione e la mitigazione delle allucinazioni nella generazione di video. Stabiliamo la classificazione come base e presentiamo varie configurazioni di classificatori ensemble, con la combinazione TimeSFormer + CNN che offre le migliori prestazioni, raggiungendo un'accuratezza del 0,345 e uno score F1 del 0,342. Questo benchmark mira a guidare lo sviluppo di modelli T2V robusti che producono video più accuratamente allineati ai prompt di input.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their
capabilities to include video understanding. Specifically, Text-to-video (T2V)
models have made significant progress in quality, comprehension, and duration,
excelling at creating videos from simple textual prompts. Yet, they still
frequently produce hallucinated content that clearly signals the video is
AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of
hallucinated videos from T2V models. We identify five major types of
hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia,
Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we
developed the first large-scale dataset of hallucinated videos, comprising
3,782 videos annotated by humans into these five categories. ViBe offers a
unique resource for evaluating the reliability of T2V models and provides a
foundation for improving hallucination detection and mitigation in video
generation. We establish classification as a baseline and present various
ensemble classifier configurations, with the TimeSFormer + CNN combination
yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score.
This benchmark aims to drive the development of robust T2V models that produce
videos more accurately aligned with input prompts.Summary
AI-Generated Summary