MR. Video: "MapReduce" is het principe voor het begrijpen van lange video's
MR. Video: "MapReduce" is the Principle for Long Video Understanding
April 22, 2025
Auteurs: Ziqi Pang, Yu-Xiong Wang
cs.AI
Samenvatting
Wij stellen MR. Video voor, een agentisch raamwerk voor het begrijpen van lange video's dat het eenvoudige maar effectieve MapReduce-principe demonstreert voor het verwerken van lange video's: (1) Map: het onafhankelijk en dicht waarnemen van korte videofragmenten, en (2) Reduce: het gezamenlijk aggregeren van informatie uit alle fragmenten. In vergelijking met sequence-to-sequence vision-language modellen (VLMs) voert MR. Video gedetailleerde waarneming van korte video's uit zonder beperkt te worden door de contextlengte. In vergelijking met bestaande video-agents die doorgaans vertrouwen op sequentiële selectie van sleutelsegmenten, maakt de Map-operatie een eenvoudigere en schaalbaardere parallelle waarneming van korte videosegmenten mogelijk. De Reduce-stap maakt een uitgebreidere contextaggregatie en redenering mogelijk, wat expliciete ophalen van sleutelsegmenten overtreft. Dit MapReduce-principe is toepasbaar op zowel VLMs als video-agents, en we gebruiken LLM-agents om de effectiviteit ervan te valideren.
In de praktijk gebruikt MR. Video twee MapReduce-fasen: (A) Captioning: het genereren van bijschriften voor korte videofragmenten (map), gevolgd door het standaardiseren van herhaalde personages en objecten naar gedeelde namen (reduce); (B) Analyse: voor elke gebruikersvraag, het analyseren van relevante informatie uit individuele korte video's (map), en het integreren ervan in een definitief antwoord (reduce). MR. Video behaalt een nauwkeurigheidsverbetering van meer dan 10% op de uitdagende LVBench in vergelijking met state-of-the-art VLMs en video-agents.
Code is beschikbaar op: https://github.com/ziqipang/MR-Video
English
We propose MR. Video, an agentic long video understanding framework that
demonstrates the simple yet effective MapReduce principle for processing long
videos: (1) Map: independently and densely perceiving short video clips, and
(2) Reduce: jointly aggregating information from all clips. Compared with
sequence-to-sequence vision-language models (VLMs), MR. Video performs detailed
short video perception without being limited by context length. Compared with
existing video agents that typically rely on sequential key segment selection,
the Map operation enables simpler and more scalable sequence parallel
perception of short video segments. Its Reduce step allows for more
comprehensive context aggregation and reasoning, surpassing explicit key
segment retrieval. This MapReduce principle is applicable to both VLMs and
video agents, and we use LLM agents to validate its effectiveness.
In practice, MR. Video employs two MapReduce stages: (A) Captioning:
generating captions for short video clips (map), then standardizing repeated
characters and objects into shared names (reduce); (B) Analysis: for each user
question, analyzing relevant information from individual short videos (map),
and integrating them into a final answer (reduce). MR. Video achieves over 10%
accuracy improvement on the challenging LVBench compared to state-of-the-art
VLMs and video agents.
Code is available at: https://github.com/ziqipang/MR-VideoSummary
AI-Generated Summary