MagicMotion: Kontrollierbare Videogenerierung mit Dichter-zu-Sparser-Trajektorienführung
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
March 20, 2025
Autoren: Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Videogenerierung haben zu bemerkenswerten Verbesserungen in der visuellen Qualität und zeitlichen Kohärenz geführt. Darauf aufbauend hat sich die trajektorienkontrollierte Videogenerierung entwickelt, die eine präzise Steuerung der Objektbewegung durch explizit definierte räumliche Pfade ermöglicht. Allerdings kämpfen bestehende Methoden mit komplexen Objektbewegungen und der Steuerung von Mehrfachobjektbewegungen, was zu ungenauer Trajektorieneinhaltung, schlechter Objektkonsistenz und beeinträchtigter visueller Qualität führt. Darüber hinaus unterstützen diese Methoden nur die Trajektorienkontrolle in einem einzigen Format, was ihre Anwendbarkeit in verschiedenen Szenarien einschränkt. Zudem gibt es keinen öffentlich zugänglichen Datensatz oder Benchmark, der speziell für die trajektorienkontrollierte Videogenerierung entwickelt wurde, was eine robuste Trainings- und systematische Evaluierung behindert. Um diese Herausforderungen zu bewältigen, stellen wir MagicMotion vor, ein neuartiges Bild-zu-Video-Generierungsframework, das die Trajektorienkontrolle durch drei Bedingungsebenen von dicht bis spärlich ermöglicht: Masken, Begrenzungsrahmen und spärliche Rahmen. Bei einem Eingabebild und vorgegebenen Trajektorien animiert MagicMotion nahtlos Objekte entlang der definierten Pfade, während die Objektkonsistenz und visuelle Qualität erhalten bleiben. Darüber hinaus präsentieren wir MagicData, einen groß angelegten Datensatz für trajektorienkontrollierte Videos, sowie eine automatisierte Pipeline für Annotation und Filterung. Wir führen auch MagicBench ein, einen umfassenden Benchmark, der sowohl die Videoqualität als auch die Genauigkeit der Trajektorienkontrolle bei unterschiedlichen Objektzahlen bewertet. Umfangreiche Experimente zeigen, dass MagicMotion frühere Methoden in verschiedenen Metriken übertrifft. Unsere Projektseite ist öffentlich zugänglich unter https://quanhaol.github.io/magicmotion-site.
English
Recent advances in video generation have led to remarkable improvements in
visual quality and temporal coherence. Upon this, trajectory-controllable video
generation has emerged to enable precise object motion control through
explicitly defined spatial paths. However, existing methods struggle with
complex object movements and multi-object motion control, resulting in
imprecise trajectory adherence, poor object consistency, and compromised visual
quality. Furthermore, these methods only support trajectory control in a single
format, limiting their applicability in diverse scenarios. Additionally, there
is no publicly available dataset or benchmark specifically tailored for
trajectory-controllable video generation, hindering robust training and
systematic evaluation. To address these challenges, we introduce MagicMotion, a
novel image-to-video generation framework that enables trajectory control
through three levels of conditions from dense to sparse: masks, bounding boxes,
and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly
animates objects along defined trajectories while maintaining object
consistency and visual quality. Furthermore, we present MagicData, a
large-scale trajectory-controlled video dataset, along with an automated
pipeline for annotation and filtering. We also introduce MagicBench, a
comprehensive benchmark that assesses both video quality and trajectory control
accuracy across different numbers of objects. Extensive experiments demonstrate
that MagicMotion outperforms previous methods across various metrics. Our
project page are publicly available at
https://quanhaol.github.io/magicmotion-site.Summary
AI-Generated Summary