SOLAMI: Modellazione Sociale Visione-Linguaggio-Azione per Interazioni Immersive con Personaggi Autonomi in 3D
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
Autori: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Abstract
Gli esseri umani sono animali sociali. Come dotare i personaggi autonomi in 3D di intelligenza sociale simile che possa percepire, comprendere e interagire con gli esseri umani rimane un problema aperto ma fondamentale. In questo articolo, presentiamo SOLAMI, il primo framework di Modellazione Sociale visione-Linguaggio-Azione (VLA) end-to-end per l'interazione immersiva con personaggi autonomi in 3D. In particolare, SOLAMI costruisce personaggi autonomi in 3D da tre prospettive: (1) Architettura Sociale VLA: Proponiamo un framework unificato di VLA sociale per generare risposte multimodali (linguaggio e movimento) basate sull'input multimodale dell'utente per guidare il personaggio nell'interazione sociale. (2) Dati Multimodali Interattivi: Presentiamo SynMSI, un dataset sintetico di interazione sociale multimodale generato da un flusso di lavoro automatico utilizzando solo dataset di movimento esistenti per affrontare il problema della scarsità di dati. (3) Interfaccia VR Immersiva: Sviluppiamo un'interfaccia VR che consente agli utenti di interagire in modo immersivo con questi personaggi guidati da varie architetture. Estesi esperimenti quantitativi e studi utente dimostrano che il nostro framework porta a risposte dei personaggi più precise e naturali (sia nel linguaggio che nel movimento) che si allineano alle aspettative dell'utente con una latenza inferiore.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary