ChatPaper.aiChatPaper

UniPose: 인간 자세 이해, 생성 및 편집을 위한 통합된 멀티모달 프레임워크

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

November 25, 2024
저자: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI

초록

인간 자세는 디지털 시대에서 중요한 역할을 합니다. 최근 연구들은 인간 자세를 이해하고 생성하는 데 상당한 진전을 이루었지만, 그들은 종종 단일한 제어 신호 모드만을 지원하며 독립적으로 작동하여 실제 상황에서의 응용을 제한합니다. 본 논문에서는 이미지, 텍스트, 그리고 3D SMPL 자세를 포함한 다양한 모드에서 인간 자세를 이해하고 생성하며 편집하는 데 대형 언어 모델(Large Language Models, LLMs)을 활용하는 UniPose 프레임워크를 제안합니다. 구체적으로, 우리는 자세 토크나이저를 적용하여 3D 자세를 이산 자세 토큰으로 변환하여 통합된 어휘 내에서 LLM에 매끄럽게 통합할 수 있도록 합니다. 미세한 자세 인식 능력을 더욱 향상시키기 위해, 우리는 UniPose를 시각 인코더의 혼합으로 지원하며 이 중에는 자세 특화 시각 인코더도 포함됩니다. 통합된 학습 전략을 통해 UniPose는 효과적으로 다른 자세 관련 작업 간에 지식을 전이하고 보이지 않는 작업에 적응하며 확장된 능력을 나타냅니다. 본 연구는 자세 이해, 생성, 편집을 위한 범용 프레임워크를 구축하기 위한 최초의 시도로서, 다양한 자세 관련 작업에서 UniPose의 경쟁력 있는 심지어 우수한 성능을 강조합니다.
English
Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.

Summary

AI-Generated Summary

PDF103November 28, 2024