SOLAMI: 3D 자율 캐릭터와의 몰입형 상호작용을 위한 소셜 비전-언어-행동 모델링
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
November 29, 2024
저자: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
초록
인간은 사회적 동물이다. 어떻게 3D 자율 캐릭터에 유사한 사회적 지능을 갖춰 인식하고 이해하며 상호작용할 수 있는지는 여전히 열려 있는 기본적인 문제이다. 본 논문에서는 3D 자율 캐릭터와의 몰입형 상호작용을 위한 최초의 종단간 소셜 비전-언어-행동 (VLA) 모델링 프레임워크인 SOLAMI를 소개한다. 구체적으로, SOLAMI는 세 가지 측면에서 3D 자율 캐릭터를 구축한다: (1) 소셜 VLA 아키텍처: 우리는 사용자의 다중모달 입력을 기반으로 다중모달 응답 (음성 및 동작)을 생성하여 캐릭터를 사회적 상호작용을 유도하는 통합된 소셜 VLA 프레임워크를 제안한다. (2) 상호작용적 다중모달 데이터: 우리는 데이터 부족 문제를 해결하기 위해 기존의 동작 데이터셋만을 사용하여 자동 파이프라인을 통해 생성된 합성 다중모달 사회적 상호작용 데이터셋인 SynMSI를 제시한다. (3) 몰입형 가상현실 인터페이스: 우리는 다양한 아키텍처에 의해 구동되는 이러한 캐릭터와 몰입적으로 상호작용할 수 있는 VR 인터페이스를 개발한다. 광범위한 양적 실험 및 사용자 연구를 통해 우리의 프레임워크가 사용자 기대에 부합하면서 음성 및 동작 양쪽에서 더 정확하고 자연스러운 캐릭터 응답을 이끌어내며 더 낮은 대기 시간을 보여준다는 것을 입증한다.
English
Human beings are social animals. How to equip 3D autonomous characters with
similar social intelligence that can perceive, understand and interact with
humans remains an open yet foundamental problem. In this paper, we introduce
SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling
framework for Immersive interaction with 3D autonomous characters.
Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1)
Social VLA Architecture: We propose a unified social VLA framework to generate
multimodal response (speech and motion) based on the user's multimodal input to
drive the character for social interaction. (2) Interactive Multimodal Data: We
present SynMSI, a synthetic multimodal social interaction dataset generated by
an automatic pipeline using only existing motion datasets to address the issue
of data scarcity. (3) Immersive VR Interface: We develop a VR interface that
enables users to immersively interact with these characters driven by various
architectures. Extensive quantitative experiments and user studies demonstrate
that our framework leads to more precise and natural character responses (in
both speech and motion) that align with user expectations with lower latency.Summary
AI-Generated Summary