ChatPaper.aiChatPaper

Kimi-Audio Technischer Bericht

Kimi-Audio Technical Report

April 25, 2025
Autoren: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI

Zusammenfassung

Wir präsentieren Kimi-Audio, ein Open-Source-Audio-Foundation-Modell, das sich durch herausragende Fähigkeiten in den Bereichen Audioverständnis, -generierung und -konversation auszeichnet. Wir erläutern detailliert die Praktiken beim Aufbau von Kimi-Audio, einschließlich der Modellarchitektur, Datenkuratierung, Trainingsrezeptur, Inferenzbereitstellung und Evaluierung. Insbesondere nutzen wir einen 12,5-Hz-Audio-Tokenizer, entwerfen eine neuartige LLM-basierte Architektur mit kontinuierlichen Merkmalen als Eingabe und diskreten Tokens als Ausgabe und entwickeln einen chunk-basierten Streaming-Detokenizer basierend auf Flow Matching. Wir kuratieren einen Pre-Training-Datensatz, der mehr als 13 Millionen Stunden Audiodaten umfasst und eine breite Palette von Modalitäten wie Sprache, Klang und Musik abdeckt, und erstellen eine Pipeline zur Konstruktion hochwertiger und vielfältiger Post-Training-Daten. Kimi-Audio, initialisiert von einem vortrainierten LLM, wird kontinuierlich auf Audio- und Textdaten mit mehreren sorgfältig gestalteten Aufgaben vorab trainiert und anschließend feinabgestimmt, um eine Vielzahl von audio-bezogenen Aufgaben zu unterstützen. Umfangreiche Evaluierungen zeigen, dass Kimi-Audio state-of-the-art Leistungen in einer Reihe von Audio-Benchmarks, einschließlich Spracherkennung, Audioverständnis, Audio-Fragebeantwortung und Sprachkonversation, erzielt. Wir veröffentlichen die Codes, Modell-Checkpoints sowie die Evaluierungstoolkits unter https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Summary

AI-Generated Summary

PDF61April 28, 2025