MinMo: Um Modelo de Linguagem Multimodal Grande para Interação por Voz Contínua

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

January 10, 2025
Autores: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI

Resumo

Os avanços recentes em grandes modelos de linguagem (LLMs) e modelos multimodais de fala-texto estabeleceram as bases para interações de voz contínuas, possibilitando conversas em tempo real, naturais e humanas. Modelos anteriores para interações por voz são categorizados como nativos e alinhados. Modelos nativos integram o processamento de fala e texto em um único framework, mas enfrentam problemas como diferentes comprimentos de sequência e treinamento prévio insuficiente. Modelos alinhados mantêm as capacidades de LLM de texto, mas frequentemente são limitados por conjuntos de dados pequenos e um foco estreito em tarefas de fala. Neste trabalho, apresentamos o MinMo, um Modelo de Linguagem Grande Multimodal com aproximadamente 8 bilhões de parâmetros para interações de voz contínuas. Abordamos as principais limitações de modelos multimodais alinhados anteriores. Treinamos o MinMo por meio de múltiplas etapas de alinhamento de fala para texto, alinhamento de texto para fala, alinhamento de fala para fala e alinhamento de interação duplex, em 1,4 milhão de horas de dados de fala diversos e uma ampla gama de tarefas de fala. Após o treinamento em múltiplas etapas, o MinMo alcança desempenho de ponta em vários benchmarks para compreensão e geração de voz, mantendo as capacidades dos LLMs de texto, e também facilita a conversa full-duplex, ou seja, comunicação bidirecional simultânea entre o usuário e o sistema. Além disso, propomos um decodificador de voz novo e simples que supera modelos anteriores na geração de voz. As capacidades aprimoradas de seguir instruções do MinMo suportam o controle da geração de fala com base em instruções do usuário, com várias nuances, incluindo emoções, dialetos e velocidades de fala, e imitando vozes específicas. Para o MinMo, a latência de fala para texto é aproximadamente 100ms, a latência full-duplex é aproximadamente 600ms na teoria e 800ms na prática. A página web do projeto MinMo é https://funaudiollm.github.io/minmo, e o código e os modelos serão lançados em breve.
English
Recent advancements in large language models (LLMs) and multimodal speech-text models have laid the groundwork for seamless voice interactions, enabling real-time, natural, and human-like conversations. Previous models for voice interactions are categorized as native and aligned. Native models integrate speech and text processing in one framework but struggle with issues like differing sequence lengths and insufficient pre-training. Aligned models maintain text LLM capabilities but are often limited by small datasets and a narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal Large Language Model with approximately 8B parameters for seamless voice interaction. We address the main limitations of prior aligned multimodal models. We train MinMo through multiple stages of speech-to-text alignment, text-to-speech alignment, speech-to-speech alignment, and duplex interaction alignment, on 1.4 million hours of diverse speech data and a broad range of speech tasks. After the multi-stage training, MinMo achieves state-of-the-art performance across various benchmarks for voice comprehension and generation while maintaining the capabilities of text LLMs, and also facilitates full-duplex conversation, that is, simultaneous two-way communication between the user and the system. Moreover, we propose a novel and simple voice decoder that outperforms prior models in voice generation. The enhanced instruction-following capabilities of MinMo supports controlling speech generation based on user instructions, with various nuances including emotions, dialects, and speaking rates, and mimicking specific voices. For MinMo, the speech-to-text latency is approximately 100ms, full-duplex latency is approximately 600ms in theory and 800ms in practice. The MinMo project web page is https://funaudiollm.github.io/minmo, and the code and models will be released soon.

Summary

AI-Generated Summary

PDF325January 14, 2025