Rapport Technique de Kimi-Audio
Kimi-Audio Technical Report
April 25, 2025
Auteurs: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI
Résumé
Nous présentons Kimi-Audio, un modèle de fondation audio open-source qui excelle dans la compréhension, la génération et la conversation audio. Nous détaillons les pratiques utilisées pour construire Kimi-Audio, incluant l'architecture du modèle, la curation des données, la recette d'entraînement, le déploiement de l'inférence et l'évaluation. Plus précisément, nous exploitons un tokenizer audio à 12,5 Hz, concevons une architecture novatrice basée sur un LLM (Large Language Model) avec des caractéristiques continues en entrée et des tokens discrets en sortie, et développons un détokenizer de streaming par morceaux basé sur le flow matching. Nous avons constitué un ensemble de données de pré-entraînement comprenant plus de 13 millions d'heures de données audio couvrant une large gamme de modalités, incluant la parole, les sons et la musique, et avons construit un pipeline pour générer des données post-entraînement de haute qualité et diversifiées. Initialisé à partir d'un LLM pré-entraîné, Kimi-Audio est continuellement pré-entraîné sur des données audio et textuelles avec plusieurs tâches soigneusement conçues, puis affiné pour supporter une variété de tâches liées à l'audio. Une évaluation approfondie montre que Kimi-Audio atteint des performances de pointe sur une série de benchmarks audio, incluant la reconnaissance vocale, la compréhension audio, la réponse à des questions audio et la conversation vocale. Nous publions les codes, les points de contrôle du modèle ainsi que les outils d'évaluation sur https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in
audio understanding, generation, and conversation. We detail the practices in
building Kimi-Audio, including model architecture, data curation, training
recipe, inference deployment, and evaluation. Specifically, we leverage a
12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous
features as input and discrete tokens as output, and develop a chunk-wise
streaming detokenizer based on flow matching. We curate a pre-training dataset
that consists of more than 13 million hours of audio data covering a wide range
of modalities including speech, sound, and music, and build a pipeline to
construct high-quality and diverse post-training data. Initialized from a
pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text
data with several carefully designed tasks, and then fine-tuned to support a
diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio
achieves state-of-the-art performance on a range of audio benchmarks including
speech recognition, audio understanding, audio question answering, and speech
conversation. We release the codes, model checkpoints, as well as the
evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.Summary
AI-Generated Summary