이동-2D: 2D 조건화된 인간 동작 생성
Move-in-2D: 2D-Conditioned Human Motion Generation
December 17, 2024
저자: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI
초록
현실적인 인간 비디오를 생성하는 것은 여전히 어려운 과제로, 가장 효과적인 방법은 현재 인간 동작 순서를 제어 신호로 사용하는 것에 의존하고 있습니다. 기존 접근 방식은 종종 다른 비디오에서 추출된 기존 동작을 사용하여, 특정 동작 유형 및 전역 장면 일치에 응용을 제한합니다. 우리는 Move-in-2D를 제안합니다. 이는 씬 이미지에 조건을 걸어 다양한 동작을 생성하고 다른 씬에 적응하는 혁신적인 방법입니다. 우리의 방법은 확산 모델을 활용하여 씬 이미지와 텍스트 프롬프트를 모두 입력으로 받아 씬에 맞는 동작 순서를 생성합니다. 이 모델을 훈련하기 위해 우리는 단일 인간 활동을 특징으로 하는 대규모 비디오 데이터셋을 수집하고, 각 비디오를 해당 인간 동작으로 주석을 달아 목표 출력으로 합니다. 실험 결과는 우리의 방법이 효과적으로 씬 이미지와 일치하는 인간 동작을 예측하고 투영 후 개선된 동작 순서가 비디오 합성 작업에서 인간 동작 품질을 향상시킨다는 것을 보여줍니다.
English
Generating realistic human videos remains a challenging task, with the most
effective methods currently relying on a human motion sequence as a control
signal. Existing approaches often use existing motion extracted from other
videos, which restricts applications to specific motion types and global scene
matching. We propose Move-in-2D, a novel approach to generate human motion
sequences conditioned on a scene image, allowing for diverse motion that adapts
to different scenes. Our approach utilizes a diffusion model that accepts both
a scene image and text prompt as inputs, producing a motion sequence tailored
to the scene. To train this model, we collect a large-scale video dataset
featuring single-human activities, annotating each video with the corresponding
human motion as the target output. Experiments demonstrate that our method
effectively predicts human motion that aligns with the scene image after
projection. Furthermore, we show that the generated motion sequence improves
human motion quality in video synthesis tasks.