Akustisches Volumen-Rendering für neuronale Impulsantwortfelder

Zusammenfassung

Eine realistische Audio-Synthese, die genaue akustische Phänomene erfasst, ist entscheidend für die Schaffung immersiver Erlebnisse in virtueller und erweiterter Realität. Die Synthese des Tons, der an jeder Position empfangen wird, beruht auf der Schätzung der Impulsantwort (IR), die charakterisiert, wie der Ton in einer Szene entlang verschiedener Pfade propagiert, bevor er die Hörposition erreicht. In diesem Artikel präsentieren wir Acoustic Volume Rendering (AVR), einen neuartigen Ansatz, der Volumen-Rendering-Techniken anpasst, um akustische Impulsantworten zu modellieren. Während Volumen-Rendering erfolgreich bei der Modellierung von Strahlungsfeldern für Bilder und neuronale Szenedarstellungen war, stellen IRs aufgrund ihrer Zeitreihensignale einzigartige Herausforderungen dar. Um diesen Herausforderungen zu begegnen, führen wir Frequenzbereich-Volumen-Rendering ein und verwenden sphärische Integration, um die IR-Messungen anzupassen. Unsere Methode konstruiert ein Impulsantwortfeld, das die Wellenausbreitungsprinzipien inhärent kodiert und eine Spitzenleistung bei der Synthese von Impulsantworten für neue Positionen erreicht. Experimente zeigen, dass AVR die derzeit führenden Methoden deutlich übertrifft. Zusätzlich entwickeln wir eine akustische Simulationsplattform, AcoustiX, die genauere und realistischere IR-Simulationen als vorhandene Simulatoren bietet. Der Code für AVR und AcoustiX ist unter https://zitonglan.github.io/avr verfügbar.

English

Realistic audio synthesis that captures accurate acoustic phenomena is essential for creating immersive experiences in virtual and augmented reality. Synthesizing the sound received at any position relies on the estimation of impulse response (IR), which characterizes how sound propagates in one scene along different paths before arriving at the listener's position. In this paper, we present Acoustic Volume Rendering (AVR), a novel approach that adapts volume rendering techniques to model acoustic impulse responses. While volume rendering has been successful in modeling radiance fields for images and neural scene representations, IRs present unique challenges as time-series signals. To address these challenges, we introduce frequency-domain volume rendering and use spherical integration to fit the IR measurements. Our method constructs an impulse response field that inherently encodes wave propagation principles and achieves state-of-the-art performance in synthesizing impulse responses for novel poses. Experiments show that AVR surpasses current leading methods by a substantial margin. Additionally, we develop an acoustic simulation platform, AcoustiX, which provides more accurate and realistic IR simulations than existing simulators. Code for AVR and AcoustiX are available at https://zitonglan.github.io/avr.

Akustisches Volumen-Rendering für neuronale Impulsantwortfelder

Acoustic Volume Rendering for Neural Impulse Response Fields

Zusammenfassung

Support