ChatPaper.aiChatPaper

MotionLab: 동작-조건-동작 패러다임을 통한 통합된 인간 동작 생성 및 편집

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

February 4, 2025
저자: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI

초록

인간 동작 생성 및 편집은 컴퓨터 그래픽스 및 비전의 주요 구성 요소입니다. 그러나 이 분야의 현재 접근 방식은 특정 작업에 맞춘 격리된 솔루션을 제공하는 경향이 있어 실제 응용 프로그램에 비효율적이고 비실용적일 수 있습니다. 동작 관련 작업을 통합하려는 노력이 있었지만, 이러한 방법은 단순히 다른 모달리티를 조건으로 사용하여 동작 생성을 안내하는 것뿐입니다. 결과적으로 이러한 방법은 편집 기능, 세밀한 제어, 그리고 작업 간 지식 공유를 돕지 못합니다. 이러한 제한 사항을 해결하고 인간 동작 생성 및 편집을 처리할 수 있는 다목적 통합 프레임워크를 제공하기 위해 우리는 새로운 패러다임인 Motion-Condition-Motion을 소개합니다. 이는 소스 동작, 조건 및 대상 동작이라는 세 가지 개념을 사용하여 다양한 작업을 통합적으로 정의할 수 있게 합니다. 이 패러다임을 기반으로 우리는 소스 동작에서 대상 동작으로의 매핑을 학습하기 위해 정정된 플로우를 통합한 통합 프레임워크인 MotionLab을 제안합니다. MotionLab에서는 1) MotionFlow Transformer를 도입하여 작업 특정 모듈 없이 조건부 생성 및 편집을 향상시키고; 2) 소스 동작과 대상 동작 사이의 시간 동기화를 보장하기 위한 Aligned Rotational Position Encoding; 3) 작업 지정 지시 모듈레이션; 그리고 4) 효과적인 다중 작업 학습 및 작업 간 지식 공유를 위한 Motion Curriculum Learning을 소개합니다. 특히, 우리의 MotionLab은 인간 동작에 대한 다양한 벤치마크에서 유망한 일반화 능력과 추론 효율성을 보여줍니다. 우리의 코드 및 추가 비디오 결과물은 다음 링크에서 확인할 수 있습니다: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

Summary

AI-Generated Summary

PDF163February 7, 2025