ChatPaper.aiChatPaper

Vidi: Grote Multimodale Modellen voor Videobegrip en -bewerking

Vidi: Large Multimodal Models for Video Understanding and Editing

April 22, 2025
Auteurs: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI

Samenvatting

Mensen delen van nature informatie met degenen met wie ze verbonden zijn, en video is een van de dominante media geworden voor communicatie en expressie op het internet. Om de creatie van hoogwaardige grootschalige video-inhoud te ondersteunen, vereist een moderne pipeline een uitgebreid begrip van zowel de ruwe invoermaterialen (bijvoorbeeld de onbewerkte beelden die door camera's zijn vastgelegd) als de bewerkingscomponenten (bijvoorbeeld visuele effecten). In video-bewerkingsscenario's moeten modellen meerdere modaliteiten verwerken (bijvoorbeeld visie, audio, tekst) met een sterke achtergrondkennis en omgaan met flexibele invoerlengtes (bijvoorbeeld urenlange ruwe video's), wat aanzienlijke uitdagingen vormt voor traditionele modellen. In dit rapport introduceren we Vidi, een familie van Large Multimodal Models (LMMs) voor een breed scala aan video-begrip- en bewerkingsscenario's. De eerste release richt zich op temporele retrieval, dat wil zeggen het identificeren van de tijdsbereiken binnen de invoervideo's die overeenkomen met een gegeven tekstquery, wat een cruciale rol speelt in intelligente bewerking. Het model is in staat om urenlange video's te verwerken met een sterk temporeel begripsvermogen, bijvoorbeeld het ophalen van tijdsbereiken voor bepaalde queries. Om een uitgebreide evaluatie in real-world scenario's te ondersteunen, presenteren we ook de VUE-TR benchmark, die vijf belangrijke verbeteringen introduceert. 1) Videoduur: aanzienlijk langer dan bestaande temporele retrieval-datasets, 2) Audio-ondersteuning: omvat audio-gebaseerde queries, 3) Query-formaat: diverse query-lengtes/formaten, 4) Annotatiekwaliteit: grondwaarheid-tijdsbereiken zijn handmatig geannoteerd. 5) Evaluatiemetriek: een verfijnde IoU-metriek om evaluatie over meerdere tijdsbereiken te ondersteunen. Opmerkelijk is dat Vidi aanzienlijk beter presteert dan toonaangevende propriëtaire modellen, zoals GPT-4o en Gemini, bij de temporele retrieval-taak, wat zijn superioriteit in video-bewerkingsscenario's aangeeft.
English
Humans naturally share information with those they are connected to, and video has become one of the dominant mediums for communication and expression on the Internet. To support the creation of high-quality large-scale video content, a modern pipeline requires a comprehensive understanding of both the raw input materials (e.g., the unedited footage captured by cameras) and the editing components (e.g., visual effects). In video editing scenarios, models must process multiple modalities (e.g., vision, audio, text) with strong background knowledge and handle flexible input lengths (e.g., hour-long raw videos), which poses significant challenges for traditional models. In this report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a wide range of video understand editing scenarios. The first release focuses on temporal retrieval, i.e., identifying the time ranges within the input videos corresponding to a given text query, which plays a critical role in intelligent editing. The model is capable of processing hour-long videos with strong temporal understanding capability, e.g., retrieve time ranges for certain queries. To support a comprehensive evaluation in real-world scenarios, we also present the VUE-TR benchmark, which introduces five key advancements. 1) Video duration: significantly longer than existing temporal retrival datasets, 2) Audio support: includes audio-based queries, 3) Query format: diverse query lengths/formats, 4) Annotation quality: ground-truth time ranges are manually annotated. 5) Evaluation metric: a refined IoU metric to support evaluation over multiple time ranges. Remarkably, Vidi significantly outperforms leading proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task, indicating its superiority in video editing scenarios.

Summary

AI-Generated Summary

PDF152April 23, 2025