EMOVA: 생생한 감정을 보고, 듣고, 말할 수 있도록 언어 모델에 권한 부여
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
September 26, 2024
저자: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI
초록
GPT-4는 다양한 감정과 톤으로 음성 대화를 가능하게 하는 옴니 모달 모델로, 옴니 모달 기반 모델에 있어서 중요한 발전을 이루었습니다. 그러나 대형 언어 모델을 이미지, 텍스트, 음성을 공개 데이터로 완전히 인식하고 생성하는 것은 오픈 소스 커뮤니티에서 여전히 어려운 과제입니다. 기존의 비전-언어 모델은 음성 처리를 위해 외부 도구에 의존하고 있으며, 음성-언어 모델은 여전히 시각 이해 능력이 제한적이거나 없는 상태입니다. 이러한 갭을 해결하기 위해 우리는 EMOVA(EMotionally Omni-present Voice Assistant)를 제안합니다. 이를 통해 대형 언어 모델이 최첨단의 비전-언어 성능을 유지하면서 완전한 음성 기능을 갖출 수 있습니다. 의미-음향 분리 음성 토크나이저를 사용하여 우리는 옴니 모달 정렬이 비모달 정렬된 대조군과 비교하여 비전-언어 및 음성 능력을 더 향상시킬 수 있다는 놀라운 사실을 발견했습니다. 더불어, 유연한 음성 스타일 제어(예: 감정 및 음조)를 위해 가벼운 스타일 모듈을 제안합니다. EMOVA는 비전-언어 및 음성 평가에서 최첨단 성능을 달성하며, 생생한 감정을 담은 옴니 모달 대화를 지원합니다.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse
emotions and tones, marks a milestone for omni-modal foundation models.
However, empowering Large Language Models to perceive and generate images,
texts, and speeches end-to-end with publicly available data remains challenging
in the open-source community. Existing vision-language models rely on external
tools for the speech processing, while speech-language models still suffer from
limited or even without vision-understanding abilities. To address this gap, we
propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large
Language Models with end-to-end speech capabilities while maintaining the
leading vision-language performance. With a semantic-acoustic disentangled
speech tokenizer, we notice surprisingly that omni-modal alignment can further
enhance vision-language and speech abilities compared with the corresponding
bi-modal aligned counterparts. Moreover, a lightweight style module is proposed
for flexible speech style controls (e.g., emotions and pitches). For the first
time, EMOVA achieves state-of-the-art performance on both the vision-language
and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue
with vivid emotions.Summary
AI-Generated Summary