Unmögliche Videos
Impossible Videos
March 18, 2025
Autoren: Zechen Bai, Hai Ci, Mike Zheng Shou
cs.AI
Zusammenfassung
Synthetische Videos werden heutzutage häufig genutzt, um die Knappheit und Vielfalt realer Videodaten zu ergänzen. Aktuelle synthetische Datensätze replizieren hauptsächlich reale Szenarien, wodurch unmögliche, kontrafaktische und anti-reale Videokonzepte unterrepräsentiert bleiben. Diese Arbeit zielt darauf ab, zwei Fragen zu beantworten: 1) Können heutige Videogenerierungsmodelle effektiv Anweisungen folgen, um unmögliche Videoinhalte zu erstellen? 2) Sind heutige Videoanalyse-Modelle gut genug, um unmögliche Videos zu verstehen? Zu diesem Zweck führen wir IPV-Bench ein, einen neuartigen Benchmark, der entwickelt wurde, um Fortschritte in der Videoanalyse und -generierung zu bewerten und zu fördern. IPV-Bench basiert auf einer umfassenden Taxonomie, die 4 Domänen und 14 Kategorien umfasst. Es bietet vielfältige Szenen, die physikalische, biologische, geografische oder soziale Gesetze brechen. Auf Grundlage dieser Taxonomie wurde eine Prompt-Suite erstellt, um Videogenerierungsmodelle zu bewerten und ihre Fähigkeiten zur Befolgung von Anweisungen und Kreativität herauszufordern. Zusätzlich wurde ein Video-Benchmark kuratiert, um Video-LLMs hinsichtlich ihrer Fähigkeit zu bewerten, unmögliche Videos zu verstehen, was insbesondere ein Verständnis der zeitlichen Dynamik und des Weltwissens erfordert. Umfassende Auswertungen offenbaren Einschränkungen und Erkenntnisse für zukünftige Entwicklungsrichtungen von Videomodellen und ebnen den Weg für die nächste Generation von Videomodellen.
English
Synthetic videos nowadays is widely used to complement data scarcity and
diversity of real-world videos. Current synthetic datasets primarily replicate
real-world scenarios, leaving impossible, counterfactual and anti-reality video
concepts underexplored. This work aims to answer two questions: 1) Can today's
video generation models effectively follow prompts to create impossible video
content? 2) Are today's video understanding models good enough for
understanding impossible videos? To this end, we introduce IPV-Bench, a novel
benchmark designed to evaluate and foster progress in video understanding and
generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing
4 domains, 14 categories. It features diverse scenes that defy physical,
biological, geographical, or social laws. Based on the taxonomy, a prompt suite
is constructed to evaluate video generation models, challenging their prompt
following and creativity capabilities. In addition, a video benchmark is
curated to assess Video-LLMs on their ability of understanding impossible
videos, which particularly requires reasoning on temporal dynamics and world
knowledge. Comprehensive evaluations reveal limitations and insights for future
directions of video models, paving the way for next-generation video models.Summary
AI-Generated Summary