UniPose: 인간 자세 이해, 생성 및 편집을 위한 통합된 멀티모달 프레임워크
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
저자: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
초록
인간 자세는 디지털 시대에서 중요한 역할을 합니다. 최근 연구들은 인간 자세를 이해하고 생성하는 데 상당한 진전을 이루었지만, 그들은 종종 단일한 제어 신호 모드만을 지원하며 독립적으로 작동하여 실제 상황에서의 응용을 제한합니다. 본 논문에서는 이미지, 텍스트, 그리고 3D SMPL 자세를 포함한 다양한 모드에서 인간 자세를 이해하고 생성하며 편집하는 데 대형 언어 모델(Large Language Models, LLMs)을 활용하는 UniPose 프레임워크를 제안합니다. 구체적으로, 우리는 자세 토크나이저를 적용하여 3D 자세를 이산 자세 토큰으로 변환하여 통합된 어휘 내에서 LLM에 매끄럽게 통합할 수 있도록 합니다. 미세한 자세 인식 능력을 더욱 향상시키기 위해, 우리는 UniPose를 시각 인코더의 혼합으로 지원하며 이 중에는 자세 특화 시각 인코더도 포함됩니다. 통합된 학습 전략을 통해 UniPose는 효과적으로 다른 자세 관련 작업 간에 지식을 전이하고 보이지 않는 작업에 적응하며 확장된 능력을 나타냅니다. 본 연구는 자세 이해, 생성, 편집을 위한 범용 프레임워크를 구축하기 위한 최초의 시도로서, 다양한 자세 관련 작업에서 UniPose의 경쟁력 있는 심지어 우수한 성능을 강조합니다.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary