OpenOmni: 대형 언어 모델이 실시간 자가인식 감정 음성 합성을 통해 언어 간 제로샷 옴니모달 정렬을 피벗합니다.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
저자: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
초록
최근에는 이미지, 텍스트 및 음성에 걸쳐 이해와 생성에서 옴니모달 학습의 최신 발전이 소유 모델 내에서 주로 이루어졌습니다. 옴니모단 데이터셋의 한정 및 실시간 감정 음성 생성과 관련된 과제들이 오픈 소스 진행을 방해해왔습니다. 이러한 문제를 해결하기 위해 우리는 오픈오미니라는 두 단계 훈련 방법을 제안합니다. 이 방법은 옴니모달 정렬과 음성 생성을 결합하여 최첨단 옴니모달 대형 언어 모델을 개발합니다. 정렬 단계에서 사전 훈련된 음성 모델이 텍스트-이미지 작업에서 더 훈련되어 비전에서 음성으로 (거의) 제로샷 방식으로 일반화되어, 삼 모달 데이터셋에서 훈련된 모델을 능가합니다. 음성 생성 단계에서 가벼운 디코더가 음성 작업 및 선호 학습을 통해 실시간 감정 음성을 용이하게 합니다. 실험 결과는 오픈오미니가 일관되게 옴니모달, 비전-언어 및 음성-언어 평가에서 개선되어 자연스럽고 감정 풍부한 대화와 실시간 감정 음성 생성을 가능하게 한다는 것을 보여줍니다.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary