SonicSim: 이동하는 소리 원천 시나리오에서 음성 처리를 위한 맞춤형 시뮬레이션 플랫폼
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
저자: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
초록
음향 분리 및 개선 모델의 체계적인 평가는 일반적으로 다양한 시나리오를 포함하는 방대한 데이터를 필요로 합니다. 그러나 현실 세계 데이터셋은 종종 모델의 훈련 및 평가 요구를 충족시키기에는 데이터가 부족합니다. 합성 데이터셋은 더 많은 양의 데이터를 제공하지만, 그들의 음향 시뮬레이션은 현실성이 부족합니다. 결과적으로, 현실 세계나 합성 데이터셋 모두 실제 필요를 충족시키지 못합니다. 이러한 문제를 해결하기 위해 우리는 SonicSim을 소개합니다. 이는 이동하는 소리 원본을 위한 매우 사용자 정의 가능한 데이터를 생성하기 위해 설계된 합성 툴킷입니다. SonicSim은 Habitat-sim 기반의 실체화된 AI 시뮬레이션 플랫폼을 기반으로 개발되었으며, 장면 수준, 마이크로폰 수준 및 소스 수준을 포함한 다중 수준의 조정을 지원하여 더 다양한 합성 데이터를 생성합니다. SonicSim을 활용하여 우리는 Librispeech, Freesound Dataset 50k (FSD50K) 및 Free Music Archive (FMA)에서 나온 90개의 장면을 사용하여 이동하는 소리 원본 벤치마크 데이터셋인 SonicSet을 구축하였습니다. 또한, 합성 데이터와 현실 데이터 간의 차이를 검증하기 위해 SonicSet 검증 세트에서 반향이 없는 원시 데이터 5시간을 무작위로 선택하여 현실 세계 음향 분리 데이터셋을 녹음하였으며, 해당 데이터셋을 해당하는 합성 데이터셋과 비교하였습니다. 마찬가지로, 우리는 실제 세계 음향 개선 데이터셋 RealMAN을 활용하여 다른 합성 데이터셋과 음향적 차이를 SonicSet 데이터셋을 위해 검증하였습니다. 결과는 SonicSim에 의해 생성된 합성 데이터가 실제 세계 시나리오에 효과적으로 일반화될 수 있음을 나타냅니다. 데모 및 코드는 https://cslikai.cn/SonicSim/에서 공개적으로 이용 가능합니다.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.Summary
AI-Generated Summary