AnimateAnything: Konsistente und steuerbare Animation für die Videogenerierung
AnimateAnything: Consistent and Controllable Animation for Video Generation
November 16, 2024
Autoren: Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu
cs.AI
Zusammenfassung
Wir präsentieren einen vereinheitlichten steuerbaren Video-Generierungsansatz namens AnimateAnything, der präzise und konsistente Video-Manipulation unter verschiedenen Bedingungen ermöglicht, einschließlich Kameratrajektorien, Texteingaben und Benutzerbewegungsannotationen. Speziell entwerfen wir sorgfältig ein Multi-Scale Control Feature Fusion Network, um eine gemeinsame Bewegungsrepräsentation für verschiedene Bedingungen zu konstruieren. Es wandelt alle Steuerinformationen explizit in Frame-für-Frame-Optical Flows um. Anschließend integrieren wir die optischen Flows als Bewegungsprioritäten, um die endgültige Video-Generierung zu lenken. Darüber hinaus schlagen wir zur Reduzierung von Flimmern, das durch großflächige Bewegungen verursacht wird, ein frequenzbasiertes Stabilisierungsmodul vor. Es kann die zeitliche Kohärenz verbessern, indem es die Frequenzdomänenkonsistenz des Videos sicherstellt. Experimente zeigen, dass unsere Methode die state-of-the-art Ansätze übertrifft. Für weitere Details und Videos besuchen Sie bitte die Webseite: https://yu-shaonian.github.io/Animate_Anything/.
English
We present a unified controllable video generation approach AnimateAnything
that facilitates precise and consistent video manipulation across various
conditions, including camera trajectories, text prompts, and user motion
annotations. Specifically, we carefully design a multi-scale control feature
fusion network to construct a common motion representation for different
conditions. It explicitly converts all control information into frame-by-frame
optical flows. Then we incorporate the optical flows as motion priors to guide
final video generation. In addition, to reduce the flickering issues caused by
large-scale motion, we propose a frequency-based stabilization module. It can
enhance temporal coherence by ensuring the video's frequency domain
consistency. Experiments demonstrate that our method outperforms the
state-of-the-art approaches. For more details and videos, please refer to the
webpage: https://yu-shaonian.github.io/Animate_Anything/.Summary
AI-Generated Summary