OpenOmni: Grandi modelli linguistici si orientano verso l'allineamento omni-modale zero-shot attraverso le lingue con sintesi vocale emotiva in tempo reale auto-consapevole.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
Autori: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
Abstract
Recenti progressi nell'apprendimento omnimodale sono stati raggiunti nella comprensione e generazione attraverso immagini, testo e speech, sebbene principalmente all'interno di modelli proprietari. Dati omnimodali limitati e le sfide intrinseche associate alla generazione di speech emotivo in tempo reale hanno ostacolato il progresso open-source. Per affrontare questi problemi, proponiamo openomni, un metodo di addestramento a due fasi che combina allineamento omnimodale e generazione di speech per sviluppare un modello di linguaggio omnimodale di grandi dimensioni all'avanguardia. Nella fase di allineamento, un modello di speech pre-addestrato viene ulteriormente addestrato su compiti testo-immagine per generalizzare dalla visione allo speech in modo (quasi) zero-shot, superando i modelli addestrati su dataset tri-modali. Nella fase di generazione di speech, un decoder leggero facilita la generazione di speech emotivo in tempo reale attraverso l'addestramento su compiti di speech e apprendimento delle preferenze. Gli esperimenti dimostrano che openomni migliora costantemente nelle valutazioni omnimodali, visione-linguaggio e speech-linguaggio, consentendo dialoghi naturali e ricchi di emozioni e la generazione di speech emotivo in tempo reale.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary