MinMo: シームレスな音声インタラクションのためのマルチモーダルな大規模言語モデル
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
January 10, 2025
著者: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI
要旨
最近の大規模言語モデル(LLM)とマルチモーダル音声テキストモデルの進歩により、シームレスな音声インタラクションを可能にし、リアルタイムで自然で人間らしい会話が実現される基盤が築かれました。過去の音声インタラクションモデルは、ネイティブとアラインされたものに分類されます。ネイティブモデルは音声とテキスト処理を1つのフレームワークに統合しますが、異なるシーケンス長や不十分な事前トレーニングなどの課題に直面しています。一方、アラインされたモデルはテキストLLMの機能を維持しつつ、小規模なデータセットや音声タスクへの焦点の狭さによって制約されることが多いです。本研究では、シームレスな音声インタラクションのための約80億のパラメータを持つマルチモーダル大規模言語モデルであるMinMoを紹介します。MinMoは、従来のアラインされたマルチモーダルモデルの主な制約に対処しています。我々は、MinMoを多段階の音声からテキストへのアラインメント、テキストから音声へのアラインメント、音声から音声へのアラインメント、およびデュプレックスインタラクションのアラインメントを通じて、多様な音声データと幅広い音声タスクにわたって140万時間以上のトレーニングを行います。多段階のトレーニングの後、MinMoは、音声理解と生成のさまざまなベンチマークで最先端のパフォーマンスを達成し、テキストLLMの機能を維持しつつ、ユーザーとシステムの間での全二重会話、すなわち同時の双方向コミュニケーションを可能にします。さらに、我々は、音声生成において従来のモデルを上回る新しい簡潔な音声デコーダを提案しています。MinMoの強化された指示に従う機能は、ユーザーの指示に基づいて音声生成を制御し、感情、方言、話速などのさまざまなニュアンスや特定の声を模倣することをサポートします。MinMoの音声からテキストへの遅延は約100msであり、全二重の遅延は理論上約600ms、実際には約800msです。MinMoプロジェクトのウェブページはhttps://funaudiollm.github.io/minmoであり、コードとモデルは近日公開されます。
English
Recent advancements in large language models (LLMs) and multimodal
speech-text models have laid the groundwork for seamless voice interactions,
enabling real-time, natural, and human-like conversations. Previous models for
voice interactions are categorized as native and aligned. Native models
integrate speech and text processing in one framework but struggle with issues
like differing sequence lengths and insufficient pre-training. Aligned models
maintain text LLM capabilities but are often limited by small datasets and a
narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal
Large Language Model with approximately 8B parameters for seamless voice
interaction. We address the main limitations of prior aligned multimodal
models. We train MinMo through multiple stages of speech-to-text alignment,
text-to-speech alignment, speech-to-speech alignment, and duplex interaction
alignment, on 1.4 million hours of diverse speech data and a broad range of
speech tasks. After the multi-stage training, MinMo achieves state-of-the-art
performance across various benchmarks for voice comprehension and generation
while maintaining the capabilities of text LLMs, and also facilitates
full-duplex conversation, that is, simultaneous two-way communication between
the user and the system. Moreover, we propose a novel and simple voice decoder
that outperforms prior models in voice generation. The enhanced
instruction-following capabilities of MinMo supports controlling speech
generation based on user instructions, with various nuances including emotions,
dialects, and speaking rates, and mimicking specific voices. For MinMo, the
speech-to-text latency is approximately 100ms, full-duplex latency is
approximately 600ms in theory and 800ms in practice. The MinMo project web page
is https://funaudiollm.github.io/minmo, and the code and models will be
released soon.Summary
AI-Generated Summary