Zur Untersuchung von Kamerabewegungen in beliebigen Videos
Towards Understanding Camera Motions in Any Video
April 21, 2025
Autoren: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI
Zusammenfassung
Wir stellen CameraBench vor, einen umfangreichen Datensatz und Benchmark, der entwickelt wurde, um das Verständnis von Kamerabewegungen zu bewerten und zu verbessern. CameraBench besteht aus ~3.000 vielfältigen Internetvideos, die von Experten durch einen strengen mehrstufigen Qualitätskontrollprozess annotiert wurden. Eine unserer Beiträge ist eine Taxonomie von Kamerabewegungsprimitiven, die in Zusammenarbeit mit Kameraleuten entwickelt wurde. Wir stellen beispielsweise fest, dass einige Bewegungen wie „Folgen“ (oder Tracking) das Verständnis von Szeneninhalten wie bewegten Objekten erfordern. Wir führen eine groß angelegte Humanstudie durch, um die Leistung menschlicher Annotationen zu quantifizieren, und zeigen, dass Fachwissen und tutorialbasierte Schulungen die Genauigkeit erheblich steigern können. Beispielsweise könnte ein Anfänger einen Zoom (eine Änderung der intrinsischen Parameter) mit einer Vorwärtsbewegung (eine Änderung der extrinsischen Parameter) verwechseln, kann jedoch geschult werden, um die beiden zu unterscheiden. Mit CameraBench evaluieren wir Structure-from-Motion (SfM)- und Video-Language-Modelle (VLMs) und stellen fest, dass SfM-Modelle Schwierigkeiten haben, semantische Primitiven zu erfassen, die von Szeneninhalten abhängen, während VLMs geometrische Primitiven, die eine präzise Schätzung von Trajektorien erfordern, nur unzureichend erfassen. Anschließend feintunen wir ein generatives VLM auf CameraBench, um das Beste aus beiden Welten zu erreichen, und zeigen seine Anwendungen, einschließlich bewegungsaugmentierter Bildbeschreibung, Video-Frage-Antwort und Video-Text-Retrieval. Wir hoffen, dass unsere Taxonomie, unser Benchmark und unsere Tutorials zukünftige Bemühungen in Richtung des ultimativen Ziels, Kamerabewegungen in jedem Video zu verstehen, vorantreiben werden.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to
assess and improve camera motion understanding. CameraBench consists of ~3,000
diverse internet videos, annotated by experts through a rigorous multi-stage
quality control process. One of our contributions is a taxonomy of camera
motion primitives, designed in collaboration with cinematographers. We find,
for example, that some motions like "follow" (or tracking) require
understanding scene content like moving subjects. We conduct a large-scale
human study to quantify human annotation performance, revealing that domain
expertise and tutorial-based training can significantly enhance accuracy. For
example, a novice may confuse zoom-in (a change of intrinsics) with translating
forward (a change of extrinsics), but can be trained to differentiate the two.
Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language
Models (VLMs), finding that SfM models struggle to capture semantic primitives
that depend on scene content, while VLMs struggle to capture geometric
primitives that require precise estimation of trajectories. We then fine-tune a
generative VLM on CameraBench to achieve the best of both worlds and showcase
its applications, including motion-augmented captioning, video question
answering, and video-text retrieval. We hope our taxonomy, benchmark, and
tutorials will drive future efforts towards the ultimate goal of understanding
camera motions in any video.Summary
AI-Generated Summary