MinMo: Un modello linguistico multimodale di grandi dimensioni per un'interazione vocale senza soluzione di continuità.
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
January 10, 2025
Autori: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI
Abstract
I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) e nei modelli multimodali di testo e voce hanno gettato le basi per interazioni vocali fluide, consentendo conversazioni in tempo reale, naturali e simili a quelle umane. I modelli precedenti per le interazioni vocali sono categorizzati come nativi e allineati. I modelli nativi integrano l'elaborazione del testo e della voce in un unico framework, ma faticano con problemi come lunghezze di sequenza diverse e un pre-training insufficiente. I modelli allineati mantengono le capacità dei LLM di testo ma sono spesso limitati da dataset ridotti e da un focus limitato sui compiti vocali. In questo lavoro, presentiamo MinMo, un Grande Modello di Linguaggio Multimodale con circa 8 miliardi di parametri per interazioni vocali fluide. Affrontiamo le principali limitazioni dei precedenti modelli multimodali allineati. Addestriamo MinMo attraverso diverse fasi di allineamento da voce a testo, da testo a voce, da voce a voce e da interazione duplex, su 1,4 milioni di ore di dati vocali diversificati e su una vasta gamma di compiti vocali. Dopo l'addestramento a più fasi, MinMo raggiunge prestazioni all'avanguardia su vari benchmark per la comprensione e la generazione vocale, mantenendo le capacità dei LLM di testo e facilitando anche la conversazione full-duplex, ovvero la comunicazione bidirezionale simultanea tra l'utente e il sistema. Inoltre, proponiamo un nuovo e semplice decodificatore vocale che supera i modelli precedenti nella generazione vocale. Le capacità potenziate di seguire le istruzioni di MinMo supportano il controllo della generazione vocale basato sulle istruzioni dell'utente, con varie sfumature tra cui emozioni, dialetti, velocità di parlata e l'imitazione di voci specifiche. Per MinMo, la latenza da voce a testo è di circa 100 ms, la latenza full-duplex è di circa 600 ms in teoria e 800 ms in pratica. La pagina web del progetto MinMo è https://funaudiollm.github.io/minmo, e il codice e i modelli saranno presto rilasciati.
English
Recent advancements in large language models (LLMs) and multimodal
speech-text models have laid the groundwork for seamless voice interactions,
enabling real-time, natural, and human-like conversations. Previous models for
voice interactions are categorized as native and aligned. Native models
integrate speech and text processing in one framework but struggle with issues
like differing sequence lengths and insufficient pre-training. Aligned models
maintain text LLM capabilities but are often limited by small datasets and a
narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal
Large Language Model with approximately 8B parameters for seamless voice
interaction. We address the main limitations of prior aligned multimodal
models. We train MinMo through multiple stages of speech-to-text alignment,
text-to-speech alignment, speech-to-speech alignment, and duplex interaction
alignment, on 1.4 million hours of diverse speech data and a broad range of
speech tasks. After the multi-stage training, MinMo achieves state-of-the-art
performance across various benchmarks for voice comprehension and generation
while maintaining the capabilities of text LLMs, and also facilitates
full-duplex conversation, that is, simultaneous two-way communication between
the user and the system. Moreover, we propose a novel and simple voice decoder
that outperforms prior models in voice generation. The enhanced
instruction-following capabilities of MinMo supports controlling speech
generation based on user instructions, with various nuances including emotions,
dialects, and speaking rates, and mimicking specific voices. For MinMo, the
speech-to-text latency is approximately 100ms, full-duplex latency is
approximately 600ms in theory and 800ms in practice. The MinMo project web page
is https://funaudiollm.github.io/minmo, and the code and models will be
released soon.Summary
AI-Generated Summary