ChatPaper.aiChatPaper

DisCoRD: 이산 토큰에서 정류된 흐름을 통한 연속적인 동작 디코딩

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
저자: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

초록

인간 동작은 본질적으로 연속적이고 동적이며, 생성 모델에 상당한 어려움을 제공합니다. 그들의 우세함에도 불구하고, VQ-VAE와 같은 이산 양자화 방법은 제한된 표현력과 프레임별 잡음 아티팩트와 같은 본질적인 한계로 고통 받습니다. 연속적인 방법은 더 부드럽고 자연스러운 동작을 생성하지만, 고차원 복잡성과 제한된 훈련 데이터로 인해 종종 실패합니다. 이산적인 표현과 연속적인 표현 사이의 "불일치"를 해결하기 위해, 우리는 DisCoRD를 소개합니다: 이산 모션 토큰을 연속적인 모션으로 변환하는 혁신적인 방법으로, 이는 정정된 플로우 디코딩을 통해 이산 모션 토큰을 연속적인 모션으로 해독합니다. 연속적인 공간에서 반복적인 정제 과정을 적용함으로써, DisCoRD는 세밀한 동역학을 포착하고 더 부드럽고 자연스러운 동작을 보장합니다. 이산 기반 프레임워크와 호환되는 우리의 방법은 조건 신호에 대한 충실성을 희생하지 않고 자연스러움을 향상시킵니다. 철저한 평가 결과는 DisCoRD가 HumanML3D에서 0.032의 FID 및 KIT-ML에서 0.169의 성능을 달성한다는 것을 입증합니다. 이러한 결과는 DisCoRD를 이산 효율성과 연속적인 현실감 사이의 간극을 메우는 견고한 솔루션이라고 확고히 합니다. 저희 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.

Summary

AI-Generated Summary

PDF102December 2, 2024