Rapport Technique de Kimi-Audio

Résumé

Nous présentons Kimi-Audio, un modèle de fondation audio open-source qui excelle dans la compréhension, la génération et la conversation audio. Nous détaillons les pratiques utilisées pour construire Kimi-Audio, incluant l'architecture du modèle, la curation des données, la recette d'entraînement, le déploiement de l'inférence et l'évaluation. Plus précisément, nous exploitons un tokenizer audio à 12,5 Hz, concevons une architecture novatrice basée sur un LLM (Large Language Model) avec des caractéristiques continues en entrée et des tokens discrets en sortie, et développons un détokenizer de streaming par morceaux basé sur le flow matching. Nous avons constitué un ensemble de données de pré-entraînement comprenant plus de 13 millions d'heures de données audio couvrant une large gamme de modalités, incluant la parole, les sons et la musique, et avons construit un pipeline pour générer des données post-entraînement de haute qualité et diversifiées. Initialisé à partir d'un LLM pré-entraîné, Kimi-Audio est continuellement pré-entraîné sur des données audio et textuelles avec plusieurs tâches soigneusement conçues, puis affiné pour supporter une variété de tâches liées à l'audio. Une évaluation approfondie montre que Kimi-Audio atteint des performances de pointe sur une série de benchmarks audio, incluant la reconnaissance vocale, la compréhension audio, la réponse à des questions audio et la conversation vocale. Nous publions les codes, les points de contrôle du modèle ainsi que les outils d'évaluation sur https://github.com/MoonshotAI/Kimi-Audio.

English

We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Rapport Technique de Kimi-Audio

Kimi-Audio Technical Report

Résumé

Summary

Support

Support