Эффективное использование токенов для понимания длинных видео в мультимодальных больших языковых моделях
Token-Efficient Long Video Understanding for Multimodal LLMs
March 6, 2025
Авторы: Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
cs.AI
Аннотация
Последние достижения в области видео-ориентированных мультимодальных больших языковых моделей (Video-LLMs) значительно улучшили понимание видео за счет обработки видеороликов как последовательностей кадров. Однако многие существующие методы рассматривают кадры независимо в визуальном модуле, не учитывая явного временного моделирования, что ограничивает их способность улавливать динамические паттерны и эффективно обрабатывать длинные видео. Для устранения этих ограничений мы представляем STORM (Spatiotemporal TOken Reduction for Multimodal LLMs) — новую архитектуру, включающую специализированный временной кодировщик между кодировщиком изображений и языковой моделью. Наш временной кодировщик использует модель пространства состояний Mamba для интеграции временной информации в токены изображений, создавая обогащенные представления, которые сохраняют межкадровую динамику на протяжении всей видеопоследовательности. Это обогащенное кодирование не только улучшает способности к видео-рассуждению, но и позволяет применять эффективные стратегии сокращения токенов, включая выборку во время тестирования и временное и пространственное объединение на этапе обучения, что значительно снижает вычислительные затраты на языковую модель без потери ключевой временной информации. Благодаря интеграции этих методов наш подход одновременно сокращает задержки при обучении и выводе, улучшая производительность и обеспечивая эффективное и надежное понимание видео в расширенных временных контекстах. Многочисленные оценки показывают, что STORM достигает наилучших результатов на различных бенчмарках для понимания длинных видео (улучшение более чем на 5% на MLVU и LongVideoBench), при этом сокращая вычислительные затраты до 8 раз и задержку декодирования в 2,4–2,9 раза для фиксированного числа входных кадров. Страница проекта доступна по адресу https://research.nvidia.com/labs/lpr/storm.
English
Recent advances in video-based multimodal large language models (Video-LLMs)
have significantly improved video understanding by processing videos as
sequences of image frames. However, many existing methods treat frames
independently in the vision backbone, lacking explicit temporal modeling, which
limits their ability to capture dynamic patterns and efficiently handle long
videos. To address these limitations, we introduce STORM
(Spatiotemporal TOken Reduction for
Multimodal LLMs), a novel architecture incorporating a dedicated
temporal encoder between the image encoder and the LLM. Our temporal encoder
leverages the Mamba State Space Model to integrate temporal information into
image tokens, generating enriched representations that preserve inter-frame
dynamics across the entire video sequence. This enriched encoding not only
enhances video reasoning capabilities but also enables effective token
reduction strategies, including test-time sampling and training-based temporal
and spatial pooling, substantially reducing computational demands on the LLM
without sacrificing key temporal information. By integrating these techniques,
our approach simultaneously reduces training and inference latency while
improving performance, enabling efficient and robust video understanding over
extended temporal contexts. Extensive evaluations show that STORM achieves
state-of-the-art results across various long video understanding benchmarks
(more than 5\% improvement on MLVU and LongVideoBench) while reducing the
computation costs by up to 8times and the decoding latency by
2.4-2.9times for the fixed numbers of input frames. Project page is
available at https://research.nvidia.com/labs/lpr/stormSummary
AI-Generated Summary