DisPose: 조절 가능한 인간 이미지 애니메이션을 위한 자세 안내 분리
DisPose: Disentangling Pose Guidance for Controllable Human Image Animation
December 12, 2024
저자: Hongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen
cs.AI
초록
가능한 인간 이미지 애니메이션을 제어하려면 참조 이미지에서 동영상을 생성하는 것이 목표입니다. 희소 가이드(예: 스켈레톤 포즈)로부터 제공되는 제한적인 제어 신호로 인해 최근 연구는 움직임 정렬을 보장하기 위해 추가적인 밀집 조건(예: 깊이 맵)을 도입하려고 시도해 왔습니다. 그러나 참조 캐릭터의 체형이 운전 동영상과 크게 다를 때 밀집 가이드의 엄격함으로 인해 생성된 동영상의 품질이 저하됩니다. 본 논문에서는 추가적인 밀집 입력 없이 더 일반화되고 효과적인 제어 신호를 찾아내기 위해 DisPose를 제안합니다. 이는 인간 이미지 애니메이션에서 희소한 스켈레톤 포즈를 움직임 필드 가이드와 키포인트 대응으로 분리합니다. 구체적으로 우리는 희소한 움직임 필드와 참조 이미지로부터 밀집한 움직임 필드를 생성하여 지역 수준의 밀집한 가이드를 제공하면서도 희소한 포즈 제어의 일반화를 유지합니다. 또한 참조 이미지에서 포즈 키포인트에 해당하는 확산 특징을 추출하고, 이러한 포인트 특징을 대상 포즈로 전송하여 명확한 신원 정보를 제공합니다. 기존 모델에 원활하게 통합하기 위해 우리는 기존 모델 매개변수를 고정시키면서 생성된 동영상의 품질과 일관성을 향상시키는 플러그 앤 플레이 하이브리드 ControlNet을 제안합니다. 방대한 질적 및 양적 실험을 통해 DisPose의 우수성이 현재 방법들과 비교하여 입증되었습니다. 코드: https://github.com/lihxxx/DisPose.
English
Controllable human image animation aims to generate videos from reference
images using driving videos. Due to the limited control signals provided by
sparse guidance (e.g., skeleton pose), recent works have attempted to introduce
additional dense conditions (e.g., depth map) to ensure motion alignment.
However, such strict dense guidance impairs the quality of the generated video
when the body shape of the reference character differs significantly from that
of the driving video. In this paper, we present DisPose to mine more
generalizable and effective control signals without additional dense input,
which disentangles the sparse skeleton pose in human image animation into
motion field guidance and keypoint correspondence. Specifically, we generate a
dense motion field from a sparse motion field and the reference image, which
provides region-level dense guidance while maintaining the generalization of
the sparse pose control. We also extract diffusion features corresponding to
pose keypoints from the reference image, and then these point features are
transferred to the target pose to provide distinct identity information. To
seamlessly integrate into existing models, we propose a plug-and-play hybrid
ControlNet that improves the quality and consistency of generated videos while
freezing the existing model parameters. Extensive qualitative and quantitative
experiments demonstrate the superiority of DisPose compared to current methods.
Code:
https://github.com/lihxxx/DisPose{https://github.com/lihxxx/DisPose}.