Attenzione alla traiettoria per il controllo fine dei movimenti video dettagliati
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
Autori: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Abstract
Gli avanzamenti recenti nella generazione di video sono stati ampiamente guidati dai modelli di diffusione video, con il controllo del movimento della telecamera che emerge come una sfida cruciale nella creazione di contenuti visivi personalizzati. Questo articolo introduce l'attenzione alla traiettoria, un nuovo approccio che esegue l'attenzione lungo le traiettorie di pixel disponibili per un controllo fine del movimento della telecamera. A differenza dei metodi esistenti che spesso producono output imprecisi o trascurano le correlazioni temporali, il nostro approccio possiede un bias induttivo più forte che inietta senza soluzione di continuità le informazioni sulla traiettoria nel processo di generazione video. In modo importante, il nostro approccio modella l'attenzione alla traiettoria come un ramo ausiliario insieme all'attenzione temporale tradizionale. Questo design consente all'attenzione temporale originale e all'attenzione alla traiettoria di lavorare in sinergia, garantendo sia un controllo preciso del movimento che una nuova capacità di generazione di contenuti, che è fondamentale quando la traiettoria è solo parzialmente disponibile. Gli esperimenti sul controllo del movimento della telecamera per immagini e video dimostrano miglioramenti significativi nella precisione e nella coerenza a lungo raggio mantenendo nel contempo una generazione di alta qualità. Inoltre, mostriamo che il nostro approccio può essere esteso ad altre attività di controllo del movimento video, come l'editing video guidato dal primo frame, dove eccelle nel mantenere la coerenza dei contenuti su ampie aree spaziali e temporali.
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.Summary
AI-Generated Summary