TokenHSI: Sintesi Unificata delle Interazioni Fisiche Uomo-Scena attraverso la Tokenizzazione dei Compiti
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Autori: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Abstract
La sintesi di interazioni uomo-ambiente (Human-Scene Interactions, HSI) diversificate e fisicamente plausibili è fondamentale sia per l'animazione digitale che per l'AI incarnata. Nonostante i progressi incoraggianti, i metodi attuali si concentrano principalmente sullo sviluppo di controllori separati, ciascuno specializzato per un compito di interazione specifico. Ciò limita significativamente la capacità di affrontare una vasta gamma di compiti HSI complessi che richiedono l'integrazione di più abilità, ad esempio sedersi mentre si trasporta un oggetto. Per risolvere questo problema, presentiamo TokenHSI, una singola politica unificata basata su transformer, in grado di unificare più abilità e adattarsi in modo flessibile. L'intuizione chiave è modellare la propriocezione dell'umanoide come un token condiviso separato e combinarlo con token di compito distinti attraverso un meccanismo di mascheramento. Tale politica unificata consente una condivisione efficace delle conoscenze tra le abilità, facilitando così l'addestramento multi-task. Inoltre, l'architettura della nostra politica supporta input di lunghezza variabile, consentendo un adattamento flessibile delle abilità apprese a nuovi scenari. Addestrando ulteriori tokenizer di compiti, possiamo non solo modificare le geometrie degli obiettivi di interazione, ma anche coordinare più abilità per affrontare compiti complessi. Gli esperimenti dimostrano che il nostro approccio può migliorare significativamente la versatilità, l'adattabilità e l'estensibilità in vari compiti HSI. Sito web: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary