ViBe: 대규모 다중모달 모델에서 환각을 평가하기 위한 텍스트-비디오 벤치마크
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
November 16, 2024
저자: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
cs.AI
초록
대규모 다중모달 모델(LMMs)의 최신 발전은 비디오 이해를 포함한 능력을 확장시켰다. 구체적으로, 텍스트-비디오(T2V) 모델은 품질, 이해도 및 지속 시간에서 상당한 진전을 이루었으며, 간단한 텍스트 프롬프트로부터 비디오를 생성하는 데 뛰어나다. 그러나 여전히 AI 생성임을 명확히 신호하는 환각적 콘텐츠를 자주 생성한다. 우리는 T2V 모델에서 환각적 비디오의 대규모 텍스트-비디오 벤치마크인 ViBe를 소개한다. 우리는 Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error 및 Physical Incongruity라는 다섯 가지 주요 환각 유형을 식별했다. 10개의 오픈 소스 T2V 모델을 사용하여, 우리는 인간에 의해 다섯 가지 범주로 주석이 달린 3,782개의 환각적 비디오로 이루어진 최초의 대규모 데이터셋을 개발했다. ViBe는 T2V 모델의 신뢰성을 평가하고 비디오 생성에서의 환각 탐지 및 완화를 개선하기 위한 기초를 제공하는 독특한 자원이다. 우리는 분류를 기준선으로 설정하고 TimeSFormer + CNN 조합을 포함한 다양한 앙상블 분류기 구성을 제시하며, 이는 0.345의 정확도와 0.342의 F1 점수를 달성하여 최상의 성능을 보여준다. 이 벤치마크는 입력 프롬프트와 보다 정확하게 일치하는 강력한 T2V 모델의 개발을 촉진하기 위한 목적을 가지고 있다.
English
Latest developments in Large Multimodal Models (LMMs) have broadened their
capabilities to include video understanding. Specifically, Text-to-video (T2V)
models have made significant progress in quality, comprehension, and duration,
excelling at creating videos from simple textual prompts. Yet, they still
frequently produce hallucinated content that clearly signals the video is
AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of
hallucinated videos from T2V models. We identify five major types of
hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia,
Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we
developed the first large-scale dataset of hallucinated videos, comprising
3,782 videos annotated by humans into these five categories. ViBe offers a
unique resource for evaluating the reliability of T2V models and provides a
foundation for improving hallucination detection and mitigation in video
generation. We establish classification as a baseline and present various
ensemble classifier configurations, with the TimeSFormer + CNN combination
yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score.
This benchmark aims to drive the development of robust T2V models that produce
videos more accurately aligned with input prompts.Summary
AI-Generated Summary