AnimateAnything: Animazione Coerente e Controllabile per la Generazione di Video
AnimateAnything: Consistent and Controllable Animation for Video Generation
November 16, 2024
Autori: Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu
cs.AI
Abstract
Presentiamo un approccio unificato alla generazione controllabile di video, AnimateAnything, che facilita la manipolazione precisa e coerente dei video in varie condizioni, incluse traiettorie della telecamera, prompt di testo e annotazioni del movimento dell'utente. In particolare, progettiamo attentamente una rete di fusione delle caratteristiche di controllo multi-scala per costruire una rappresentazione comune del movimento per diverse condizioni. Convertiamo esplicitamente tutte le informazioni di controllo in flussi ottici frame per frame. Successivamente incorporiamo i flussi ottici come priorità di movimento per guidare la generazione finale del video. Inoltre, per ridurre i problemi di sfarfallio causati da movimenti su larga scala, proponiamo un modulo di stabilizzazione basato sulla frequenza. Questo può migliorare la coerenza temporale garantendo la coerenza nel dominio delle frequenze del video. Gli esperimenti dimostrano che il nostro metodo supera gli approcci all'avanguardia. Per ulteriori dettagli e video, si prega di consultare la pagina web: https://yu-shaonian.github.io/Animate_Anything/.
English
We present a unified controllable video generation approach AnimateAnything
that facilitates precise and consistent video manipulation across various
conditions, including camera trajectories, text prompts, and user motion
annotations. Specifically, we carefully design a multi-scale control feature
fusion network to construct a common motion representation for different
conditions. It explicitly converts all control information into frame-by-frame
optical flows. Then we incorporate the optical flows as motion priors to guide
final video generation. In addition, to reduce the flickering issues caused by
large-scale motion, we propose a frequency-based stabilization module. It can
enhance temporal coherence by ensuring the video's frequency domain
consistency. Experiments demonstrate that our method outperforms the
state-of-the-art approaches. For more details and videos, please refer to the
webpage: https://yu-shaonian.github.io/Animate_Anything/.Summary
AI-Generated Summary