ChatPaper.aiChatPaper

Kimi-Audio Technisch Rapport

Kimi-Audio Technical Report

April 25, 2025
Auteurs: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI

Samenvatting

We presenteren Kimi-Audio, een open-source audio-foundationmodel dat uitblinkt in audio-begrip, -generatie en -conversatie. We gaan in detail in op de praktijken bij het bouwen van Kimi-Audio, inclusief modelarchitectuur, datacuratie, trainingsrecept, inferentie-implementatie en evaluatie. Specifiek maken we gebruik van een 12,5Hz audio-tokenizer, ontwerpen we een nieuwe LLM-gebaseerde architectuur met continue kenmerken als invoer en discrete tokens als uitvoer, en ontwikkelen we een chunk-wise streaming detokenizer gebaseerd op flow matching. We hebben een pre-trainingsdataset samengesteld die bestaat uit meer dan 13 miljoen uur aan audiogegevens die een breed scala aan modaliteiten omvatten, waaronder spraak, geluid en muziek, en hebben een pijplijn gebouwd om hoogwaardige en diverse post-trainingsdata te construeren. Geïnitialiseerd vanuit een voorgetraind LLM, wordt Kimi-Audio voortdurend voorgetraind op zowel audio- als tekstgegevens met verschillende zorgvuldig ontworpen taken, en vervolgens afgestemd om een diverse reeks audio-gerelateerde taken te ondersteunen. Uitgebreide evaluatie toont aan dat Kimi-Audio state-of-the-art prestaties behaalt op een reeks audio-benchmarks, waaronder spraakherkenning, audio-begrip, audio-vraagbeantwoording en spraakconversatie. We hebben de codes, modelcheckpoints en de evaluatietoolkits vrijgegeven op https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Summary

AI-Generated Summary

PDF72April 28, 2025