MuVi: Video-naar-Muziek Generatie met Semantische Afstemming en Ritmische Synchronisatie
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Auteurs: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Samenvatting
Het genereren van muziek die overeenkomt met de visuele inhoud van een video is een uitdagende taak, omdat het een diepgaand begrip van visuele semantiek vereist en het genereren van muziek omvat waarvan de melodie, ritme en dynamiek in harmonie zijn met de visuele verhalen. Dit artikel presenteert MuVi, een nieuw raamwerk dat deze uitdagingen effectief aanpakt om de samenhang en meeslepende ervaring van audiovisuele inhoud te verbeteren. MuVi analyseert videomateriaal via een speciaal ontworpen visuele adapter om contextueel en temporeel relevante kenmerken te extraheren. Deze kenmerken worden gebruikt om muziek te genereren die niet alleen overeenkomt met de stemming en het thema van de video, maar ook met het ritme en de pacing ervan. We introduceren ook een contrastief muziek-visueel vooraf trainingschema om synchronisatie te waarborgen, gebaseerd op de periodieke aard van muziekfrases. Bovendien tonen we aan dat onze op flow-matching gebaseerde muziekgenerator het vermogen heeft tot in-context leren, waardoor we de stijl en het genre van de gegenereerde muziek kunnen controleren. Experimentele resultaten tonen aan dat MuVi superieure prestaties levert op zowel audiokwaliteit als temporale synchronisatie. De gegenereerde muziekvideo's zijn beschikbaar op https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary