Spostamento-in-2D: Generazione di Movimento Umano Condizionato in 2D
Move-in-2D: 2D-Conditioned Human Motion Generation
December 17, 2024
Autori: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI
Abstract
La generazione di video realistici di persone rimane un compito impegnativo, con i metodi più efficaci che attualmente si basano su una sequenza di movimento umano come segnale di controllo. Gli approcci esistenti spesso utilizzano movimenti esistenti estratti da altri video, il che limita le applicazioni a tipi di movimento specifici e al matching globale della scena. Proponiamo Move-in-2D, un nuovo approccio per generare sequenze di movimento umano condizionate a un'immagine di scena, consentendo movimenti diversi che si adattano a scene diverse. Il nostro approccio utilizza un modello di diffusione che accetta sia un'immagine di scena che un prompt di testo come input, producendo una sequenza di movimento su misura per la scena. Per addestrare questo modello, raccogliamo un dataset video su larga scala che presenta attività umane singole, annotando ciascun video con il movimento umano corrispondente come output target. Gli esperimenti dimostrano che il nostro metodo predice efficacemente il movimento umano che si allinea con l'immagine della scena dopo la proiezione. Inoltre, mostriamo che la sequenza di movimento generata migliora la qualità del movimento umano nei compiti di sintesi video.
English
Generating realistic human videos remains a challenging task, with the most
effective methods currently relying on a human motion sequence as a control
signal. Existing approaches often use existing motion extracted from other
videos, which restricts applications to specific motion types and global scene
matching. We propose Move-in-2D, a novel approach to generate human motion
sequences conditioned on a scene image, allowing for diverse motion that adapts
to different scenes. Our approach utilizes a diffusion model that accepts both
a scene image and text prompt as inputs, producing a motion sequence tailored
to the scene. To train this model, we collect a large-scale video dataset
featuring single-human activities, annotating each video with the corresponding
human motion as the target output. Experiments demonstrate that our method
effectively predicts human motion that aligns with the scene image after
projection. Furthermore, we show that the generated motion sequence improves
human motion quality in video synthesis tasks.Summary
AI-Generated Summary