ChatPaper.aiChatPaper

자기 지도형 오디오-시각적 사운드스케이프 스타일화

Self-Supervised Audio-Visual Soundscape Stylization

September 22, 2024
저자: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI

초록

음성은 장면에 대한 많은 정보를 전달하여, 반향에서 추가적인 주변 소리까지 다양한 효과를 초래합니다. 본 논문에서는 오디오-비주얼 조건부 예제로부터 녹음된 것처럼 들리는 입력 음성을 다른 장면 내에서 녹음된 것으로 조작합니다. 우리의 모델은 자기 감독을 통해 학습하며, 자연 비디오에는 반복되는 소리 이벤트와 질감이 포함되어 있음을 활용합니다. 우리는 비디오에서 오디오 클립을 추출하고 음성 향상을 적용합니다. 그런 다음 잠재 확산 모델을 훈련하여 다른 비디오 내의 다른 오디오-비주얼 클립을 조건부 힌트로 사용하여 원래의 음성을 복원합니다. 이 과정을 통해 모델은 입력 음성에 조건부 예제의 소리 특성을 전달하는 방법을 학습합니다. 우리의 모델이 라벨이 없는 야외 비디오를 사용하여 성공적으로 훈련될 수 있으며, 추가적인 비주얼 신호가 그 소리 예측 능력을 향상시킬 수 있음을 보여줍니다. 비디오 결과에 대한 자세한 내용은 아래 프로젝트 웹페이지를 참조하십시오: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting in a variety of effects ranging from reverberation to additional ambient sounds. In this paper, we manipulate input speech to sound as though it was recorded within a different scene, given an audio-visual conditional example recorded from that scene. Our model learns through self-supervision, taking advantage of the fact that natural video contains recurring sound events and textures. We extract an audio clip from a video and apply speech enhancement. We then train a latent diffusion model to recover the original speech, using another audio-visual clip taken from elsewhere in the video as a conditional hint. Through this process, the model learns to transfer the conditional example's sound properties to the input speech. We show that our model can be successfully trained using unlabeled, in-the-wild videos, and that an additional visual signal can improve its sound prediction abilities. Please see our project webpage for video results: https://tinglok.netlify.app/files/avsoundscape/

Summary

AI-Generated Summary

PDF22November 16, 2024