Architettura Slow-Fast per Modelli Linguistici Multimodali su Video
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Autori: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Abstract
Bilanciare la risoluzione temporale e il dettaglio spaziale con un budget computazionale limitato rimane una sfida chiave per i modelli linguistici multimodali (MLLM) basati su video. I metodi esistenti tipicamente comprimono le rappresentazioni video utilizzando regole predefinite prima di alimentarle nel LLM, causando una perdita irreversibile di informazioni e spesso ignorando le istruzioni di input. Per affrontare questo problema, proponiamo una nuova architettura slow-fast che aggira naturalmente questo compromesso, consentendo l'uso di più frame di input preservando i dettagli spaziali. Ispirati da come gli esseri umani dapprima scorrono un video prima di concentrarsi sulle parti rilevanti, il nostro design slow-fast impiega una strategia a doppio token: 1) token visivi "fast" — un insieme compatto di caratteristiche video compresse — vengono alimentati nel LLM insieme agli embedding di testo per fornire una rapida panoramica; 2) token visivi "slow" — caratteristiche video non compresse — vengono cross-attesi dagli embedding di testo attraverso strati di decodificatore ibridi appositamente progettati, consentendo l'estrazione consapevole delle istruzioni di dettagli visivi rilevanti con complessità lineare. Condividiamo un'esplorazione sistematica per ottimizzare sia l'architettura complessiva che i componenti chiave. Gli esperimenti dimostrano che il nostro modello supera significativamente i baseline basati esclusivamente su self-attention, estendendo la capacità di input da 16 a 128 frame con un aumento di solo il 3% nel calcolo e ottenendo un miglioramento medio delle prestazioni del 16% su cinque benchmark di comprensione video. Il nostro modello da 7B raggiunge prestazioni all'avanguardia tra i modelli di dimensioni simili. Inoltre, la nostra architettura slow-fast è un design plug-and-play che può essere integrato in altri MLLM video per migliorare l'efficienza e la scalabilità.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary