MusicInfuser: Video-Diffusion zum Hören und Tanzen bringen

Zusammenfassung

Wir stellen MusicInfuser vor, einen Ansatz zur Erzeugung hochwertiger Tanzvideos, die mit einem spezifizierten Musiktrack synchronisiert sind. Anstatt zu versuchen, ein neues multimodales Audio-Video-Modell zu entwerfen und zu trainieren, zeigen wir, wie bestehende Video-Diffusionsmodelle durch die Einführung einer leichtgewichtigen Musik-Video-Cross-Attention und eines Low-Rank-Adapters an musikalische Eingaben angepasst werden können. Im Gegensatz zu früheren Arbeiten, die Motion-Capture-Daten erfordern, feintunet unser Ansatz ausschließlich auf Tanzvideos. MusicInfuser erreicht eine hochwertige musikgesteuerte Videogenerierung, während die Flexibilität und generativen Fähigkeiten der zugrunde liegenden Modelle erhalten bleiben. Wir führen ein Bewertungsframework ein, das Video-LLMs verwendet, um mehrere Dimensionen der Tanzgenerierungsqualität zu bewerten. Die Projektseite und der Code sind unter https://susunghong.github.io/MusicInfuser verfügbar.

English

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

MusicInfuser: Video-Diffusion zum Hören und Tanzen bringen

MusicInfuser: Making Video Diffusion Listen and Dance

Zusammenfassung

Summary

Support

Support