ChatPaper.aiChatPaper

솔로오디오: 언어 중심 오디오 확산 트랜스포머를 활용한 타깃 사운드 추출

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer

September 12, 2024
저자: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI

초록

본 논문에서는 소리 추출을 위한 혁신적인 확산 기반 생성 모델인 SoloAudio를 소개합니다. 저희 방법은 음성에 대한 잠재 확산 모델을 훈련시키며, 이전 U-Net 기반을 건너뛰는 Transformer를 사용하여 잠재 특징에 작용하는 모델로 대체합니다. SoloAudio는 CLAP 모델을 사용하여 음향 및 언어 지향적 소리 추출을 지원합니다. 더불어, SoloAudio는 최신 텍스트-음성 모델에 의해 생성된 합성 음성을 활용하여 훈련하며, 도메인 이탈 데이터 및 보이지 않는 소리 이벤트에 대해 강력한 일반화를 보여줍니다. 저희는 FSD Kaggle 2018 혼합 데이터셋과 AudioSet의 실제 데이터에서 이 방법을 평가했으며, SoloAudio는 도메인 내 및 도메인 외 데이터에 대해 최첨단 결과를 달성하며, 인상적인 제로샷 및 퓨샷 능력을 보여줍니다. 소스 코드와 데모가 공개되었습니다.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative model for target sound extraction (TSE). Our approach trains latent diffusion models on audio, replacing the previous U-Net backbone with a skip-connected Transformer that operates on latent features. SoloAudio supports both audio-oriented and language-oriented TSE by utilizing a CLAP model as the feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic audio generated by state-of-the-art text-to-audio models for training, demonstrating strong generalization to out-of-domain data and unseen sound events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and real data from AudioSet, where SoloAudio achieves the state-of-the-art results on both in-domain and out-of-domain data, and exhibits impressive zero-shot and few-shot capabilities. Source code and demos are released.

Summary

AI-Generated Summary

PDF102November 16, 2024