MinMo: Ein multimodales großes Sprachmodell für nahtlose Sprachinteraktion

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

January 10, 2025
Autoren: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI

Zusammenfassung

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) und multimodalen Sprach-Text-Modellen haben die Grundlage für nahtlose Sprachinteraktionen geschaffen, die Echtzeit-, natürliche und menschenähnliche Gespräche ermöglichen. Frühere Modelle für Sprachinteraktionen werden als native und ausgerichtete Modelle kategorisiert. Native Modelle integrieren Sprach- und Textverarbeitung in einem Framework, haben jedoch Schwierigkeiten mit Problemen wie unterschiedlichen Sequenzlängen und unzureichendem Vor-Training. Ausgerichtete Modelle bewahren die Text-LLM-Fähigkeiten, sind jedoch oft durch kleine Datensätze und einen engen Fokus auf Sprachaufgaben begrenzt. In dieser Arbeit stellen wir MinMo vor, ein multimodales großes Sprachmodell mit etwa 8 Milliarden Parametern für nahtlose Sprachinteraktion. Wir adressieren die Hauptbeschränkungen früherer ausgerichteter multimodaler Modelle. Wir trainieren MinMo durch mehrere Phasen der Sprache-zu-Text-Ausrichtung, Text-zu-Sprache-Ausrichtung, Sprache-zu-Sprache-Ausrichtung und Duplex-Interaktionsausrichtung, auf 1,4 Millionen Stunden vielfältiger Sprachdaten und einer breiten Palette von Sprachaufgaben. Nach dem mehrstufigen Training erreicht MinMo Spitzenleistungen in verschiedenen Benchmarks für Sprachverständnis und -erzeugung, während es die Fähigkeiten von Text-LLMs beibehält und auch eine vollduplexfähige Konversation ermöglicht, d.h. simultane Zwei-Wege-Kommunikation zwischen Benutzer und System. Darüber hinaus schlagen wir einen neuartigen und einfachen Sprachdecoder vor, der frühere Modelle in der Spracherzeugung übertrifft. Die verbesserten Anweisungsfolgefähigkeiten von MinMo unterstützen die Steuerung der Spracherzeugung basierend auf Benutzeranweisungen, mit verschiedenen Nuancen einschließlich Emotionen, Dialekten und Sprechgeschwindigkeiten sowie dem Nachahmen spezifischer Stimmen. Für MinMo beträgt die Sprache-zu-Text-Latenz etwa 100ms, die vollduplexe Latenz beträgt theoretisch etwa 600ms und praktisch etwa 800ms. Die MinMo-Projektwebseite ist https://funaudiollm.github.io/minmo, und der Code sowie die Modelle werden bald veröffentlicht.
English
Recent advancements in large language models (LLMs) and multimodal speech-text models have laid the groundwork for seamless voice interactions, enabling real-time, natural, and human-like conversations. Previous models for voice interactions are categorized as native and aligned. Native models integrate speech and text processing in one framework but struggle with issues like differing sequence lengths and insufficient pre-training. Aligned models maintain text LLM capabilities but are often limited by small datasets and a narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal Large Language Model with approximately 8B parameters for seamless voice interaction. We address the main limitations of prior aligned multimodal models. We train MinMo through multiple stages of speech-to-text alignment, text-to-speech alignment, speech-to-speech alignment, and duplex interaction alignment, on 1.4 million hours of diverse speech data and a broad range of speech tasks. After the multi-stage training, MinMo achieves state-of-the-art performance across various benchmarks for voice comprehension and generation while maintaining the capabilities of text LLMs, and also facilitates full-duplex conversation, that is, simultaneous two-way communication between the user and the system. Moreover, we propose a novel and simple voice decoder that outperforms prior models in voice generation. The enhanced instruction-following capabilities of MinMo supports controlling speech generation based on user instructions, with various nuances including emotions, dialects, and speaking rates, and mimicking specific voices. For MinMo, the speech-to-text latency is approximately 100ms, full-duplex latency is approximately 600ms in theory and 800ms in practice. The MinMo project web page is https://funaudiollm.github.io/minmo, and the code and models will be released soon.

Summary

AI-Generated Summary

Paper Overview

Die Studie präsentiert MinMo, ein Multimodal Large Language Model mit 8 Milliarden Parametern für nahtlose Sprachinteraktion. MinMo erzielt Spitzenleistungen in verschiedenen Sprachverständnis- und -erzeugungsaufgaben, ermöglicht vollduplexe Konversationen und bietet einen innovativen Sprachdecoder.

Kernbeitrag

  • Vorstellung von MinMo, einem Multimodal Large Language Model mit 8 Milliarden Parametern.
  • Erreichen von Spitzenleistungen in verschiedenen Sprachverständnis- und -erzeugungsaufgaben.
  • Einführung eines neuartigen Sprachdecoders für verbesserte Sprachgenerierung.

Forschungskontext

Die Studie positioniert MinMo als fortschrittliches multimodales Sprachmodell, das auf umfangreichen Datensätzen trainiert ist und state-of-the-art Leistungen in verschiedenen Sprachaufgaben zeigt.

Schlüsselwörter

Multimodales Large Language Model, Sprachinteraktion, Sprachdecoder, Vollduplex, Sprachverständnis, Sprachgenerierung

Hintergrund

Die Forschung konzentriert sich auf die Entwicklung von MinMo, einem fortschrittlichen multimodalen Sprachmodell, um natürliche und ausdrucksstarke Sprachinteraktionen zu ermöglichen.

Forschungslücke

  • Notwendigkeit für fortschrittliche Sprachmodelle zur Verbesserung der Sprachgenerierung und -verständnis.
  • Herausforderungen wie unterschiedliche Sequenzlängen von Sprach- und Texttoken.

Technische Herausforderungen

  • Integration von Audioverständnis- und Audiogenerierungsfunktionen.
  • Bewältigung von Problemen mit Aussprache-Fehlern und Effizienz der Audiogenerierung.

Vorherige Ansätze

  • Verwendung von End-to-End-Modellen wie dGSLM, LSLM, Moshi, GLM-4-Voice.
  • Unterschiedliche Architekturen und Ansätze zur Verarbeitung von Sprach- und Textmodalitäten.

Methodik

Die Forschungsmethodik umfasst das Training von MinMo auf umfangreichen Sprachdaten und die Evaluierung in verschiedenen Sprachaufgaben.

Theoretische Grundlage

  • Verwendung eines autoregressiven Streaming-Transformers für die Sprachgenerierung.
  • Anwendung von Gruppenformer und progressiver Nachschulung.

Technische Architektur

  • Trainingsdaten im ChatML-Format für verschiedene Sprachaufgaben.
  • Verwendung eines speziellen Sprachdecoders für die Sprachgenerierung.

Implementierungsdetails

  • Training von MinMo in vier Stufen: Sprache-zu-Text-Alignment, Text-zu-Sprache-Alignment, Sprache-zu-Sprache-Alignment, Duplex-Interaktions-Alignment.
  • Verwendung von verschiedenen Benchmarks für die Evaluierung von MinMo.

Innovationspunkte

  • Effektive vollduplexe Interaktion.
  • Kontextualisierungsfähigkeiten in mehreren Sprachen.

Experimentelle Validierung

Die experimentelle Validierung von MinMo umfasst Tests in verschiedenen Sprachaufgaben und die Bewertung der Leistung im Vergleich zu anderen Modellen.

Setup

  • Verwendung von Benchmarks wie Spracherkennung, Sprachübersetzung, Sprachanalyse und Verständnis.
  • Evaluation auf Fleurs- und CoVoST2-Testsets.

Metriken

  • Überlegene Leistung bei der Spracherkennung in verschiedenen Sprachen.
  • Beste Ergebnisse bei multilingualen Sprachübersetzungen.

Ergebnisse

  • Überlegenheit von MinMo in verschiedenen Sprachaufgaben.
  • Robuste Leistung über verschiedene Testsets hinweg.

Vergleichsanalyse

  • Überlegenheit von MinMo gegenüber anderen Modellen in Sprachübersetzung, Emotionserkennung, Geschlechtererkennung und Altersschätzung.

Auswirkungen und Implikationen

Die Studie hebt die Schlüsselergebnisse von MinMo hervor und diskutiert potenzielle Anwendungen sowie zukünftige Forschungsrichtungen.

Schlüsselerkenntnisse

  • Überlegene Leistung in Sprachverständnis und -erzeugung.
  • Herausforderungen in der Audiogenerierung und Integration von Audioverständnisfunktionen.

Einschränkungen

  • Probleme mit Aussprache-Fehlern und Effizienz der Audiogenerierung.
  • Datenungleichgewichte und Sequenzlängenunterschiede als Herausforderungen.

Zukünftige Richtungen

  • Verwendung hochwertiger Textdaten für umfassendere Updates.
  • Skalierung von Daten zur Bewältigung von Problemen mit langen Schwänzen.

Praktische Bedeutung

  • Etablierung eines neuen Standards für natürliche und ausdrucksstarke Sprachinteraktionen.
  • Potenzial für Anwendungen in der Sprachverarbeitung und -verständnis.

Ausgewählte Artikel

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: Skalierung von Grundlagenmodellen mit Blitz-Aufmerksamkeit
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252836

PDF507January 14, 2025