DisCoRD: Token discreti a movimento continuo tramite flusso rettificato Decodifica
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
November 29, 2024
Autori: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI
Abstract
Il movimento umano, intrinsecamente continuo e dinamico, presenta significativi
sfide per i modelli generativi. Nonostante la loro predominanza, i metodi di quantizzazione discreta, come i VQ-VAE, presentano limitazioni intrinseche,
inclusa l'espressività limitata e artefatti di rumore frame-wise. Gli approcci continui,
pur producendo movimenti più fluidi e naturali, spesso falliscono a causa
della complessità ad alta dimensione e dei dati di addestramento limitati. Per risolvere questa
"discordia" tra rappresentazioni discrete e continue, introduciamo
DisCoRD: Token Discreti per Movimento Continuo tramite Decodifica di Flusso Raddrizzato, un
metodo innovativo che decodifica i token di movimento discreti in movimento continuo attraverso
flusso raddrizzato. Impiegando un processo di raffinamento iterativo nello spazio continuo,
DisCoRD cattura dinamiche dettagliate e garantisce movimenti più fluidi e
naturali. Compatibile con qualsiasi framework basato su discreti, il nostro metodo
migliora la naturalezza senza compromettere la fedeltà ai segnali di condizionamento. Valutazioni approfondite dimostrano che DisCoRD raggiunge
prestazioni all'avanguardia, con FID di 0.032 su HumanML3D e 0.169 su
KIT-ML. Questi risultati consolidano DisCoRD come una soluzione robusta per colmare il
divario tra efficienza discreta e realismo continuo. La pagina del nostro progetto è
disponibile su: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant
challenges for generative models. Despite their dominance, discrete
quantization methods, such as VQ-VAEs, suffer from inherent limitations,
including restricted expressiveness and frame-wise noise artifacts. Continuous
approaches, while producing smoother and more natural motions, often falter due
to high-dimensional complexity and limited training data. To resolve this
"discord" between discrete and continuous representations, we introduce
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a
novel method that decodes discrete motion tokens into continuous motion through
rectified flow. By employing an iterative refinement process in the continuous
space, DisCoRD captures fine-grained dynamics and ensures smoother and more
natural motions. Compatible with any discrete-based framework, our method
enhances naturalness without compromising faithfulness to the conditioning
signals. Extensive evaluations demonstrate that DisCoRD achieves
state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on
KIT-ML. These results solidify DisCoRD as a robust solution for bridging the
divide between discrete efficiency and continuous realism. Our project page is
available at: https://whwjdqls.github.io/discord.github.io/.Summary
AI-Generated Summary