MusicInfuser: Video-Diffusion zum Hören und Tanzen bringen
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Autoren: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Zusammenfassung
Wir stellen MusicInfuser vor, einen Ansatz zur Erzeugung hochwertiger Tanzvideos, die mit einem spezifizierten Musiktrack synchronisiert sind. Anstatt zu versuchen, ein neues multimodales Audio-Video-Modell zu entwerfen und zu trainieren, zeigen wir, wie bestehende Video-Diffusionsmodelle durch die Einführung einer leichtgewichtigen Musik-Video-Cross-Attention und eines Low-Rank-Adapters an musikalische Eingaben angepasst werden können. Im Gegensatz zu früheren Arbeiten, die Motion-Capture-Daten erfordern, feintunet unser Ansatz ausschließlich auf Tanzvideos. MusicInfuser erreicht eine hochwertige musikgesteuerte Videogenerierung, während die Flexibilität und generativen Fähigkeiten der zugrunde liegenden Modelle erhalten bleiben. Wir führen ein Bewertungsframework ein, das Video-LLMs verwendet, um mehrere Dimensionen der Tanzgenerierungsqualität zu bewerten. Die Projektseite und der Code sind unter https://susunghong.github.io/MusicInfuser verfügbar.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary