Movimento-em-2D: Geração de Movimento Humano Condicional em 2D
Move-in-2D: 2D-Conditioned Human Motion Generation
December 17, 2024
Autores: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI
Resumo
Gerar vídeos realistas de humanos continua sendo uma tarefa desafiadora, com os métodos mais eficazes atualmente dependendo de uma sequência de movimento humano como sinal de controle. As abordagens existentes frequentemente utilizam movimentos existentes extraídos de outros vídeos, o que restringe as aplicações a tipos específicos de movimento e correspondência global de cena. Propomos o Move-in-2D, uma abordagem inovadora para gerar sequências de movimento humano condicionadas a uma imagem de cena, permitindo movimentos diversos que se adaptam a diferentes cenas. Nossa abordagem utiliza um modelo de difusão que aceita tanto uma imagem de cena quanto um prompt de texto como entradas, produzindo uma sequência de movimento adaptada à cena. Para treinar esse modelo, coletamos um grande conjunto de dados de vídeo apresentando atividades de um único humano, anotando cada vídeo com o movimento humano correspondente como saída alvo. Experimentos demonstram que nosso método prevê efetivamente o movimento humano que se alinha com a imagem da cena após a projeção. Além disso, mostramos que a sequência de movimento gerada melhora a qualidade do movimento humano em tarefas de síntese de vídeo.
English
Generating realistic human videos remains a challenging task, with the most
effective methods currently relying on a human motion sequence as a control
signal. Existing approaches often use existing motion extracted from other
videos, which restricts applications to specific motion types and global scene
matching. We propose Move-in-2D, a novel approach to generate human motion
sequences conditioned on a scene image, allowing for diverse motion that adapts
to different scenes. Our approach utilizes a diffusion model that accepts both
a scene image and text prompt as inputs, producing a motion sequence tailored
to the scene. To train this model, we collect a large-scale video dataset
featuring single-human activities, annotating each video with the corresponding
human motion as the target output. Experiments demonstrate that our method
effectively predicts human motion that aligns with the scene image after
projection. Furthermore, we show that the generated motion sequence improves
human motion quality in video synthesis tasks.Summary
AI-Generated Summary