MuVi: Video-naar-Muziek Generatie met Semantische Afstemming en Ritmische Synchronisatie

Samenvatting

Het genereren van muziek die overeenkomt met de visuele inhoud van een video is een uitdagende taak, omdat het een diepgaand begrip van visuele semantiek vereist en het genereren van muziek omvat waarvan de melodie, ritme en dynamiek in harmonie zijn met de visuele verhalen. Dit artikel presenteert MuVi, een nieuw raamwerk dat deze uitdagingen effectief aanpakt om de samenhang en meeslepende ervaring van audiovisuele inhoud te verbeteren. MuVi analyseert videomateriaal via een speciaal ontworpen visuele adapter om contextueel en temporeel relevante kenmerken te extraheren. Deze kenmerken worden gebruikt om muziek te genereren die niet alleen overeenkomt met de stemming en het thema van de video, maar ook met het ritme en de pacing ervan. We introduceren ook een contrastief muziek-visueel vooraf trainingschema om synchronisatie te waarborgen, gebaseerd op de periodieke aard van muziekfrases. Bovendien tonen we aan dat onze op flow-matching gebaseerde muziekgenerator het vermogen heeft tot in-context leren, waardoor we de stijl en het genre van de gegenereerde muziek kunnen controleren. Experimentele resultaten tonen aan dat MuVi superieure prestaties levert op zowel audiokwaliteit als temporale synchronisatie. De gegenereerde muziekvideo's zijn beschikbaar op https://muvi-v2m.github.io.

English

Generating music that aligns with the visual content of a video has been a challenging task, as it requires a deep understanding of visual semantics and involves generating music whose melody, rhythm, and dynamics harmonize with the visual narratives. This paper presents MuVi, a novel framework that effectively addresses these challenges to enhance the cohesion and immersive experience of audio-visual content. MuVi analyzes video content through a specially designed visual adaptor to extract contextually and temporally relevant features. These features are used to generate music that not only matches the video's mood and theme but also its rhythm and pacing. We also introduce a contrastive music-visual pre-training scheme to ensure synchronization, based on the periodicity nature of music phrases. In addition, we demonstrate that our flow-matching-based music generator has in-context learning ability, allowing us to control the style and genre of the generated music. Experimental results show that MuVi demonstrates superior performance in both audio quality and temporal synchronization. The generated music video samples are available at https://muvi-v2m.github.io.

MuVi: Video-naar-Muziek Generatie met Semantische Afstemming en Ritmische Synchronisatie

MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Samenvatting

Support