AnimateAnything : Animation Cohérente et Contrôlable pour la Génération Vidéo
AnimateAnything: Consistent and Controllable Animation for Video Generation
November 16, 2024
Auteurs: Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu
cs.AI
Résumé
Nous présentons une approche unifiée de génération de vidéos contrôlables, AnimateAnything, qui facilite la manipulation précise et cohérente de vidéos dans diverses conditions, y compris les trajectoires de caméra, les instructions textuelles et les annotations de mouvement utilisateur. Plus précisément, nous concevons soigneusement un réseau de fusion de caractéristiques de contrôle multi-échelle pour construire une représentation de mouvement commune pour différentes conditions. Il convertit explicitement toutes les informations de contrôle en flux optiques image par image. Ensuite, nous incorporons les flux optiques en tant que prédictions de mouvement pour guider la génération finale de la vidéo. De plus, pour réduire les problèmes de scintillement causés par les mouvements à grande échelle, nous proposons un module de stabilisation basé sur la fréquence. Il peut améliorer la cohérence temporelle en garantissant la cohérence de domaine fréquentiel de la vidéo. Les expériences démontrent que notre méthode surpasse les approches de pointe. Pour plus de détails et de vidéos, veuillez consulter la page web : https://yu-shaonian.github.io/Animate_Anything/.
English
We present a unified controllable video generation approach AnimateAnything
that facilitates precise and consistent video manipulation across various
conditions, including camera trajectories, text prompts, and user motion
annotations. Specifically, we carefully design a multi-scale control feature
fusion network to construct a common motion representation for different
conditions. It explicitly converts all control information into frame-by-frame
optical flows. Then we incorporate the optical flows as motion priors to guide
final video generation. In addition, to reduce the flickering issues caused by
large-scale motion, we propose a frequency-based stabilization module. It can
enhance temporal coherence by ensuring the video's frequency domain
consistency. Experiments demonstrate that our method outperforms the
state-of-the-art approaches. For more details and videos, please refer to the
webpage: https://yu-shaonian.github.io/Animate_Anything/.Summary
AI-Generated Summary