UniPose: Un framework unificato multimodale per la comprensione, generazione e modifica della postura umana
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Autori: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Abstract
La postura umana gioca un ruolo cruciale nell'era digitale. Mentre lavori recenti hanno ottenuto progressi impressionanti nella comprensione e generazione delle pose umane, spesso supportano solo una singola modalità di segnali di controllo e operano in isolamento, limitando la loro applicazione in scenari reali. Questo articolo presenta UniPose, un framework che impiega Large Language Models (LLM) per comprendere, generare e modificare pose umane attraverso varie modalità, incluse immagini, testo e pose 3D SMPL. In particolare, applichiamo un tokenizzatore di pose per convertire pose 3D in token di pose discreti, consentendo un'integrazione senza soluzione di continuità nell'LLM all'interno di un vocabolario unificato. Per potenziare ulteriormente le capacità di percezione dettagliata delle pose, facilitiamo UniPose con una miscela di encoder visivi, tra cui un encoder visivo specifico per le pose. Beneficiando di una strategia di apprendimento unificata, UniPose trasferisce efficacemente conoscenze tra diverse attività rilevanti per le pose, si adatta a compiti non visti ed esibisce capacità estese. Questo lavoro rappresenta il primo tentativo di costruire un framework ad uso generale per la comprensione, generazione e modifica delle pose. Esperimenti estesi evidenziano le prestazioni competitive e persino superiori di UniPose su varie attività rilevanti per le pose.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary