UniPose: Un framework unificato multimodale per la comprensione, generazione e modifica della postura umana

Abstract

La postura umana gioca un ruolo cruciale nell'era digitale. Mentre lavori recenti hanno ottenuto progressi impressionanti nella comprensione e generazione delle pose umane, spesso supportano solo una singola modalità di segnali di controllo e operano in isolamento, limitando la loro applicazione in scenari reali. Questo articolo presenta UniPose, un framework che impiega Large Language Models (LLM) per comprendere, generare e modificare pose umane attraverso varie modalità, incluse immagini, testo e pose 3D SMPL. In particolare, applichiamo un tokenizzatore di pose per convertire pose 3D in token di pose discreti, consentendo un'integrazione senza soluzione di continuità nell'LLM all'interno di un vocabolario unificato. Per potenziare ulteriormente le capacità di percezione dettagliata delle pose, facilitiamo UniPose con una miscela di encoder visivi, tra cui un encoder visivo specifico per le pose. Beneficiando di una strategia di apprendimento unificata, UniPose trasferisce efficacemente conoscenze tra diverse attività rilevanti per le pose, si adatta a compiti non visti ed esibisce capacità estese. Questo lavoro rappresenta il primo tentativo di costruire un framework ad uso generale per la comprensione, generazione e modifica delle pose. Esperimenti estesi evidenziano le prestazioni competitive e persino superiori di UniPose su varie attività rilevanti per le pose.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.

UniPose: Un framework unificato multimodale per la comprensione, generazione e modifica della postura umana

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Abstract

Support