ChatPaper.aiChatPaper

DiffVox: Een Differentieerbaar Model voor het Vastleggen en Analyseren van Professionele Effectenverdelingen

DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

April 20, 2025
Auteurs: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI

Samenvatting

Dit onderzoek introduceert een nieuw en interpreteerbaar model, DiffVox, voor het matchen van vocale effecten in muziekproductie. DiffVox, kort voor "Differentiable Vocal Fx", integreert parametrische equalisatie, dynamische bereikregeling, delay en reverb met efficiënte differentieerbare implementaties om op gradiënten gebaseerde optimalisatie voor parameterbepaling mogelijk te maken. Vocale presets worden opgehaald uit twee datasets, bestaande uit 70 nummers van MedleyDB en 365 nummers uit een privécollectie. Analyse van parametercorrelaties benadrukt sterke relaties tussen effecten en parameters, zoals de high-pass en low-shelf filters die vaak samenwerken om het lage frequentiebereik vorm te geven, en de delaytijd die correleert met de intensiteit van de vertraagde signalen. Hoofdcomponentenanalyse onthult verbanden met McAdams' timbredimensies, waarbij de belangrijkste component de waargenomen ruimtelijkheid moduleert en de secundaire componenten de spectrale helderheid beïnvloeden. Statistische tests bevestigen de niet-Gaussische aard van de parameterverdeling, wat de complexiteit van de ruimte van vocale effecten benadrukt. Deze eerste bevindingen over de parameterverdelingen leggen de basis voor toekomstig onderzoek naar modellering van vocale effecten en automatische mixing. Onze broncode en datasets zijn toegankelijk op https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching vocal effects in music production. DiffVox, short for ``Differentiable Vocal Fx", integrates parametric equalisation, dynamic range control, delay, and reverb with efficient differentiable implementations to enable gradient-based optimisation for parameter estimation. Vocal presets are retrieved from two datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private collection. Analysis of parameter correlations highlights strong relationships between effects and parameters, such as the high-pass and low-shelf filters often behaving together to shape the low end, and the delay time correlates with the intensity of the delayed signals. Principal component analysis reveals connections to McAdams' timbre dimensions, where the most crucial component modulates the perceived spaciousness while the secondary components influence spectral brightness. Statistical testing confirms the non-Gaussian nature of the parameter distribution, highlighting the complexity of the vocal effects space. These initial findings on the parameter distributions set the foundation for future research in vocal effects modelling and automatic mixing. Our source code and datasets are accessible at https://github.com/SonyResearch/diffvox.

Summary

AI-Generated Summary

PDF22April 23, 2025