X-Dancer: Генерация выразительного музыкального видео человеческого танца
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Авторы: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Аннотация
Мы представляем X-Dancer, новый конвейер анимации изображений под музыку с нулевой настройкой, который создает разнообразные и долгосрочные реалистичные видеоролики человеческого танца из одного статического изображения. В его основе мы представляем единый трансформерно-диффузионный каркас, включающий авторегрессионную модель трансформера, которая синтезирует расширенные и синхронизированные с музыкой последовательности токенов для 2D поз тела, головы и рук, которые затем направляют модель диффузии для создания согласованных и реалистичных кадров танцев. В отличие от традиционных методов, в основном генерирующих движение человека в 3D, X-Dancer решает ограничения данных и увеличивает масштабируемость, моделируя широкий спектр 2D танцевальных движений, захватывая их тонкую согласованность с музыкальными ритмами через легко доступные монокулярные видеоролики. Для достижения этого мы сначала создаем пространственно композиционное представление токенов из 2D меток поз человека, связанных с уверенностями ключевых точек, кодируя как крупные артикулированные движения тела (например, верхняя и нижняя части тела), так и мелкозернистые движения (например, голова и руки). Затем мы разрабатываем модель трансформера от музыки к движению, которая авторегрессивно генерирует последовательности токенов поз танца, согласованных с музыкой, интегрируя глобальное внимание как к музыкальному стилю, так и к контексту предыдущего движения. Наконец, мы используем диффузионную основу для анимации эталонного изображения с помощью синтезированных токенов поз через AdaIN, формируя полностью дифференцируемый каркас от начала до конца. Экспериментальные результаты показывают, что X-Dancer способен производить как разнообразные, так и характеризованные видеоролики танца, значительно превосходя современные методы по разнообразию, выразительности и реализму. Код и модель будут доступны для исследовательских целей.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary