OpenOmni: Modelos de Linguagem Grandes Pivot Zero-shot Alinhamento Omnimodal através de Idiomas com Síntese de Fala Emocional em Tempo Real Autoconsciente
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
Autores: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
Resumo
Avanços recentes em aprendizado omnimodal têm sido alcançados na compreensão e geração através de imagens, texto e fala, embora principalmente dentro de modelos proprietários. Conjuntos de dados omnimodais limitados e os desafios inerentes associados à geração de fala emocional em tempo real têm prejudicado o progresso de código aberto. Para abordar essas questões, propomos openomni, um método de treinamento em duas etapas que combina alinhamento omnimodal e geração de fala para desenvolver um modelo de linguagem omnimodal grande de última geração. Na fase de alinhamento, um modelo de fala pré-treinado é ainda treinado em tarefas de texto-imagem para generalizar da visão para a fala de maneira (quase) sem necessidade de ajustes, superando modelos treinados em conjuntos de dados tri-modais. Na fase de geração de fala, um decodificador leve facilita a geração de fala emocional em tempo real através do treinamento em tarefas de fala e aprendizado de preferência. Experimentos demonstram que openomni melhora consistentemente em avaliações omnimodais, visão-linguagem e fala-linguagem, possibilitando diálogos naturais e ricos em emoção e geração de fala emocional em tempo real.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary