LeviTor: Sintesi Immagine-Video Orientata alla Tragittoire 3D

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

December 19, 2024
Autori: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang
cs.AI

Abstract

La natura intuitiva dell'interazione basata su trascinamento ha portato alla sua crescente adozione per controllare le traiettorie degli oggetti nella sintesi immagine-video. Tuttavia, i metodi esistenti che eseguono il trascinamento nello spazio 2D di solito affrontano l'ambiguità nel gestire i movimenti fuori piano. In questo lavoro, arricchiamo l'interazione con una nuova dimensione, ovvero la profondità, in modo che agli utenti sia consentito assegnare una profondità relativa per ciascun punto sulla traiettoria. In questo modo, il nostro nuovo paradigma di interazione non solo eredita la comodità del trascinamento 2D, ma facilita il controllo della traiettoria nello spazio 3D, ampliando il campo della creatività. Proponiamo un metodo innovativo per il controllo della traiettoria 3D nella sintesi immagine-video astrattendo le maschere degli oggetti in alcuni punti di cluster. Questi punti, accompagnati dalle informazioni sulla profondità e sull'istanza, vengono infine alimentati in un modello di diffusione video come segnale di controllo. Estesi esperimenti convalidano l'efficacia del nostro approccio, chiamato LeviTor, nel manipolare con precisione i movimenti degli oggetti nella produzione di video fotorealistici da immagini statiche. Pagina del progetto: https://ppetrichor.github.io/levitor.github.io/
English
The intuitive nature of drag-based interaction has led to its growing adoption for controlling object trajectories in image-to-video synthesis. Still, existing methods that perform dragging in the 2D space usually face ambiguity when handling out-of-plane movements. In this work, we augment the interaction with a new dimension, i.e., the depth dimension, such that users are allowed to assign a relative depth for each point on the trajectory. That way, our new interaction paradigm not only inherits the convenience from 2D dragging, but facilitates trajectory control in the 3D space, broadening the scope of creativity. We propose a pioneering method for 3D trajectory control in image-to-video synthesis by abstracting object masks into a few cluster points. These points, accompanied by the depth information and the instance information, are finally fed into a video diffusion model as the control signal. Extensive experiments validate the effectiveness of our approach, dubbed LeviTor, in precisely manipulating the object movements when producing photo-realistic videos from static images. Project page: https://ppetrichor.github.io/levitor.github.io/

Summary

AI-Generated Summary

PDF153December 20, 2024