Spostamento-in-2D: Generazione di Movimento Umano Condizionato in 2D

Move-in-2D: 2D-Conditioned Human Motion Generation

December 17, 2024
Autori: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI

Abstract

La generazione di video realistici di persone rimane un compito impegnativo, con i metodi più efficaci che attualmente si basano su una sequenza di movimento umano come segnale di controllo. Gli approcci esistenti spesso utilizzano movimenti esistenti estratti da altri video, il che limita le applicazioni a tipi di movimento specifici e al matching globale della scena. Proponiamo Move-in-2D, un nuovo approccio per generare sequenze di movimento umano condizionate a un'immagine di scena, consentendo movimenti diversi che si adattano a scene diverse. Il nostro approccio utilizza un modello di diffusione che accetta sia un'immagine di scena che un prompt di testo come input, producendo una sequenza di movimento su misura per la scena. Per addestrare questo modello, raccogliamo un dataset video su larga scala che presenta attività umane singole, annotando ciascun video con il movimento umano corrispondente come output target. Gli esperimenti dimostrano che il nostro metodo predice efficacemente il movimento umano che si allinea con l'immagine della scena dopo la proiezione. Inoltre, mostriamo che la sequenza di movimento generata migliora la qualità del movimento umano nei compiti di sintesi video.
English
Generating realistic human videos remains a challenging task, with the most effective methods currently relying on a human motion sequence as a control signal. Existing approaches often use existing motion extracted from other videos, which restricts applications to specific motion types and global scene matching. We propose Move-in-2D, a novel approach to generate human motion sequences conditioned on a scene image, allowing for diverse motion that adapts to different scenes. Our approach utilizes a diffusion model that accepts both a scene image and text prompt as inputs, producing a motion sequence tailored to the scene. To train this model, we collect a large-scale video dataset featuring single-human activities, annotating each video with the corresponding human motion as the target output. Experiments demonstrate that our method effectively predicts human motion that aligns with the scene image after projection. Furthermore, we show that the generated motion sequence improves human motion quality in video synthesis tasks.

Summary

AI-Generated Summary

PDF22December 20, 2024