MagicMotion: Kontrollierbare Videogenerierung mit Dichter-zu-Sparser-Trajektorienführung

Zusammenfassung

Jüngste Fortschritte in der Videogenerierung haben zu bemerkenswerten Verbesserungen in der visuellen Qualität und zeitlichen Kohärenz geführt. Darauf aufbauend hat sich die trajektorienkontrollierte Videogenerierung entwickelt, die eine präzise Steuerung der Objektbewegung durch explizit definierte räumliche Pfade ermöglicht. Allerdings kämpfen bestehende Methoden mit komplexen Objektbewegungen und der Steuerung von Mehrfachobjektbewegungen, was zu ungenauer Trajektorieneinhaltung, schlechter Objektkonsistenz und beeinträchtigter visueller Qualität führt. Darüber hinaus unterstützen diese Methoden nur die Trajektorienkontrolle in einem einzigen Format, was ihre Anwendbarkeit in verschiedenen Szenarien einschränkt. Zudem gibt es keinen öffentlich zugänglichen Datensatz oder Benchmark, der speziell für die trajektorienkontrollierte Videogenerierung entwickelt wurde, was eine robuste Trainings- und systematische Evaluierung behindert. Um diese Herausforderungen zu bewältigen, stellen wir MagicMotion vor, ein neuartiges Bild-zu-Video-Generierungsframework, das die Trajektorienkontrolle durch drei Bedingungsebenen von dicht bis spärlich ermöglicht: Masken, Begrenzungsrahmen und spärliche Rahmen. Bei einem Eingabebild und vorgegebenen Trajektorien animiert MagicMotion nahtlos Objekte entlang der definierten Pfade, während die Objektkonsistenz und visuelle Qualität erhalten bleiben. Darüber hinaus präsentieren wir MagicData, einen groß angelegten Datensatz für trajektorienkontrollierte Videos, sowie eine automatisierte Pipeline für Annotation und Filterung. Wir führen auch MagicBench ein, einen umfassenden Benchmark, der sowohl die Videoqualität als auch die Genauigkeit der Trajektorienkontrolle bei unterschiedlichen Objektzahlen bewertet. Umfangreiche Experimente zeigen, dass MagicMotion frühere Methoden in verschiedenen Metriken übertrifft. Unsere Projektseite ist öffentlich zugänglich unter https://quanhaol.github.io/magicmotion-site.

English

Recent advances in video generation have led to remarkable improvements in visual quality and temporal coherence. Upon this, trajectory-controllable video generation has emerged to enable precise object motion control through explicitly defined spatial paths. However, existing methods struggle with complex object movements and multi-object motion control, resulting in imprecise trajectory adherence, poor object consistency, and compromised visual quality. Furthermore, these methods only support trajectory control in a single format, limiting their applicability in diverse scenarios. Additionally, there is no publicly available dataset or benchmark specifically tailored for trajectory-controllable video generation, hindering robust training and systematic evaluation. To address these challenges, we introduce MagicMotion, a novel image-to-video generation framework that enables trajectory control through three levels of conditions from dense to sparse: masks, bounding boxes, and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly animates objects along defined trajectories while maintaining object consistency and visual quality. Furthermore, we present MagicData, a large-scale trajectory-controlled video dataset, along with an automated pipeline for annotation and filtering. We also introduce MagicBench, a comprehensive benchmark that assesses both video quality and trajectory control accuracy across different numbers of objects. Extensive experiments demonstrate that MagicMotion outperforms previous methods across various metrics. Our project page are publicly available at https://quanhaol.github.io/magicmotion-site.

MagicMotion: Kontrollierbare Videogenerierung mit Dichter-zu-Sparser-Trajektorienführung

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Zusammenfassung

Summary

Support