Аудио-FLAN: Предварительный выпуск
Audio-FLAN: A Preliminary Release
February 23, 2025
Авторы: Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
cs.AI
Аннотация
Недавние достижения в аудио-токенизации значительно улучшили интеграцию аудио-возможностей в большие языковые модели (LLM). Однако понимание и генерация звука часто рассматриваются как отдельные задачи, затрудняя развитие по-настоящему объединенных аудио-языковых моделей. В то время как настройка инструкций продемонстрировала замечательный успех в улучшении обобщения и обучения без примеров в тексте и зрении, ее применение к аудио остается в значительной степени неисследованным. Одним из основных препятствий является отсутствие комплексных наборов данных, объединяющих понимание и генерацию звука. Для решения этой проблемы мы представляем Audio-FLAN, крупномасштабный набор данных для настройки инструкций, охватывающий 80 разнообразных задач в областях речи, музыки и звука, с более чем 100 миллионами экземпляров. Audio-FLAN заложит основу для объединенных аудио-языковых моделей, которые могут безупречно обрабатывать как задачи понимания (например, транскрипция, понимание), так и генерации (например, речь, музыка, звук) в широком диапазоне аудио-областей в режиме обучения без примеров. Набор данных Audio-FLAN доступен на платформах HuggingFace и GitHub и будет непрерывно обновляться.
English
Recent advancements in audio tokenization have significantly enhanced the
integration of audio capabilities into large language models (LLMs). However,
audio understanding and generation are often treated as distinct tasks,
hindering the development of truly unified audio-language models. While
instruction tuning has demonstrated remarkable success in improving
generalization and zero-shot learning across text and vision, its application
to audio remains largely unexplored. A major obstacle is the lack of
comprehensive datasets that unify audio understanding and generation. To
address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset
covering 80 diverse tasks across speech, music, and sound domains, with over
100 million instances. Audio-FLAN lays the foundation for unified
audio-language models that can seamlessly handle both understanding (e.g.,
transcription, comprehension) and generation (e.g., speech, music, sound) tasks
across a wide range of audio domains in a zero-shot manner. The Audio-FLAN
dataset is available on HuggingFace and GitHub and will be continuously
updated.Summary
AI-Generated Summary