확산 모델을 통한 다양하고 효율적인 오디오 캡션 생성 방향
Towards Diverse and Efficient Audio Captioning via Diffusion Models
September 14, 2024
저자: Manjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Ruibo Fu, Wei Liang, Dong Yu
cs.AI
초록
다양하고 효율적인 오디오 자막을 위해 맞춤화된 비자기회귀 확산 모델인 확산 기반 오디오 자막(DAC)을 소개합니다. 언어 백본에 의존하는 기존 자막 모델들은 다양한 자막 작업에서 높은 성공을 거두었지만, 생성 속도와 다양성 측면에서의 미흡한 성능은 오디오 이해와 멀티미디어 응용 분야의 발전을 방해합니다. 저희의 확산 기반 프레임워크는 자막에서의 고유한 장점을 제공하는데, 이는 내재적인 확률성과 전체적인 문맥 모델링에서 비롯됩니다. 철저한 평가를 통해, DAC가 기존 벤치마크와 비교하여 자막 품질에서 SOTA 성능 수준을 달성할 뿐만 아니라 생성 속도와 다양성 측면에서 현저히 뛰어난 성과를 보이는 것을 입증합니다. DAC의 성공은 텍스트 생성이 확산 백본을 활용하여 오디오 및 시각 생성 작업과 원활하게 통합될 수 있음을 보여주며, 이는 서로 다른 모달리티 간 통합된 오디오 관련 생성 모델로 나아가는 길을 열어놓습니다.
English
We introduce Diffusion-based Audio Captioning (DAC), a non-autoregressive
diffusion model tailored for diverse and efficient audio captioning. Although
existing captioning models relying on language backbones have achieved
remarkable success in various captioning tasks, their insufficient performance
in terms of generation speed and diversity impede progress in audio
understanding and multimedia applications. Our diffusion-based framework offers
unique advantages stemming from its inherent stochasticity and holistic context
modeling in captioning. Through rigorous evaluation, we demonstrate that DAC
not only achieves SOTA performance levels compared to existing benchmarks in
the caption quality, but also significantly outperforms them in terms of
generation speed and diversity. The success of DAC illustrates that text
generation can also be seamlessly integrated with audio and visual generation
tasks using a diffusion backbone, paving the way for a unified, audio-related
generative model across different modalities.Summary
AI-Generated Summary