Kimi-Audio Technischer Bericht

Zusammenfassung

Wir präsentieren Kimi-Audio, ein Open-Source-Audio-Foundation-Modell, das sich durch herausragende Fähigkeiten in den Bereichen Audioverständnis, -generierung und -konversation auszeichnet. Wir erläutern detailliert die Praktiken beim Aufbau von Kimi-Audio, einschließlich der Modellarchitektur, Datenkuratierung, Trainingsrezeptur, Inferenzbereitstellung und Evaluierung. Insbesondere nutzen wir einen 12,5-Hz-Audio-Tokenizer, entwerfen eine neuartige LLM-basierte Architektur mit kontinuierlichen Merkmalen als Eingabe und diskreten Tokens als Ausgabe und entwickeln einen chunk-basierten Streaming-Detokenizer basierend auf Flow Matching. Wir kuratieren einen Pre-Training-Datensatz, der mehr als 13 Millionen Stunden Audiodaten umfasst und eine breite Palette von Modalitäten wie Sprache, Klang und Musik abdeckt, und erstellen eine Pipeline zur Konstruktion hochwertiger und vielfältiger Post-Training-Daten. Kimi-Audio, initialisiert von einem vortrainierten LLM, wird kontinuierlich auf Audio- und Textdaten mit mehreren sorgfältig gestalteten Aufgaben vorab trainiert und anschließend feinabgestimmt, um eine Vielzahl von audio-bezogenen Aufgaben zu unterstützen. Umfangreiche Evaluierungen zeigen, dass Kimi-Audio state-of-the-art Leistungen in einer Reihe von Audio-Benchmarks, einschließlich Spracherkennung, Audioverständnis, Audio-Fragebeantwortung und Sprachkonversation, erzielt. Wir veröffentlichen die Codes, Modell-Checkpoints sowie die Evaluierungstoolkits unter https://github.com/MoonshotAI/Kimi-Audio.

English

We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Kimi-Audio Technischer Bericht

Kimi-Audio Technical Report

Zusammenfassung

Summary

Support

Support