Apollo: Un'esplorazione della comprensione dei video nei grandi modelli multimodali

Apollo: An Exploration of Video Understanding in Large Multimodal Models

December 13, 2024
Autori: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
cs.AI

Abstract

Nonostante l'integrazione rapida delle capacità di percezione video nei Grandi Modelli Multimodali (LMM), i meccanismi sottostanti che guidano la comprensione dei video rimangono scarsamente compresi. Di conseguenza, molte decisioni progettuali in questo ambito vengono prese senza una giustificazione o analisi adeguata. L'alto costo computazionale per addestrare ed valutare tali modelli, unito alla limitata ricerca aperta, ostacola lo sviluppo dei video-LMM. Per affrontare ciò, presentiamo uno studio esaustivo che aiuta a scoprire cosa guida efficacemente la comprensione dei video nei LMM. Iniziamo esaminando criticamente i principali contributi alle elevate esigenze computazionali associate alla ricerca sui video-LMM e scopriamo la Coerenza della Scalabilità, in cui le decisioni progettuali e di addestramento prese su modelli e dataset più piccoli (fino a una dimensione critica) si trasferiscono efficacemente a modelli più grandi. Sfruttando queste intuizioni, abbiamo esplorato molti aspetti specifici dei video-LMM, tra cui campionamento video, architetture, composizione dei dati, programmi di addestramento e altro ancora. Ad esempio, abbiamo dimostrato che il campionamento fps durante l'addestramento è nettamente preferibile al campionamento uniforme dei frame e quali codificatori di visione sono i migliori per la rappresentazione video. Guidati da queste scoperte, presentiamo Apollo, una famiglia di LMM all'avanguardia che raggiunge prestazioni superiori su diverse dimensioni di modelli. I nostri modelli possono percepire video di un'ora in modo efficiente, con Apollo-3B che supera la maggior parte dei modelli esistenti da 7B con un impressionante 55,1 su LongVideoBench. Apollo-7B è all'avanguardia rispetto ai LMM da 7B con un 70,9 su MLVU e un 63,3 su Video-MME.
English
Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.

Summary

AI-Generated Summary

PDF13912December 16, 2024