Naar een beter begrip van camerabewegingen in elke video
Towards Understanding Camera Motions in Any Video
April 21, 2025
Auteurs: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI
Samenvatting
We introduceren CameraBench, een grootschalige dataset en benchmark ontworpen om het begrip van camerabewegingen te beoordelen en te verbeteren. CameraBench bestaat uit ~3.000 diverse internetvideo's, geannoteerd door experts via een rigoureus meerfasig kwaliteitscontroleproces. Een van onze bijdragen is een taxonomie van camerabewegingsprimitieven, ontwikkeld in samenwerking met cinematografen. We ontdekken bijvoorbeeld dat sommige bewegingen zoals "volgen" (of tracking) inzicht vereisen in scène-inhoud zoals bewegende onderwerpen. We voeren een grootschalig menselijk onderzoek uit om de prestaties van menselijke annotaties te kwantificeren, wat aantoont dat domeinexpertise en tutorialgebaseerde training de nauwkeurigheid aanzienlijk kunnen verbeteren. Een beginner kan bijvoorbeeld een zoom-in (een verandering van intrinsieke parameters) verwarren met naar voren bewegen (een verandering van extrinsieke parameters), maar kan worden getraind om deze twee te onderscheiden. Met CameraBench evalueren we Structure-from-Motion (SfM) en Video-Language Models (VLMs), waarbij we vaststellen dat SfM-modellen moeite hebben met het vastleggen van semantische primitieven die afhankelijk zijn van scène-inhoud, terwijl VLMs moeite hebben met het vastleggen van geometrische primitieven die een precieze schatting van trajecten vereisen. Vervolgens fine-tunen we een generatief VLM op CameraBench om het beste van beide werelden te bereiken en demonstreren we de toepassingen, waaronder beweging-augmented captioning, video-vraagbeantwoording en video-tekstretrieval. We hopen dat onze taxonomie, benchmark en tutorials toekomstige inspanningen zullen stimuleren richting het ultieme doel van het begrijpen van camerabewegingen in elke video.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to
assess and improve camera motion understanding. CameraBench consists of ~3,000
diverse internet videos, annotated by experts through a rigorous multi-stage
quality control process. One of our contributions is a taxonomy of camera
motion primitives, designed in collaboration with cinematographers. We find,
for example, that some motions like "follow" (or tracking) require
understanding scene content like moving subjects. We conduct a large-scale
human study to quantify human annotation performance, revealing that domain
expertise and tutorial-based training can significantly enhance accuracy. For
example, a novice may confuse zoom-in (a change of intrinsics) with translating
forward (a change of extrinsics), but can be trained to differentiate the two.
Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language
Models (VLMs), finding that SfM models struggle to capture semantic primitives
that depend on scene content, while VLMs struggle to capture geometric
primitives that require precise estimation of trajectories. We then fine-tune a
generative VLM on CameraBench to achieve the best of both worlds and showcase
its applications, including motion-augmented captioning, video question
answering, and video-text retrieval. We hope our taxonomy, benchmark, and
tutorials will drive future efforts towards the ultimate goal of understanding
camera motions in any video.Summary
AI-Generated Summary