MotionCLR: 이해를 통한 동작 생성 및 훈련 없는 편집을 통한 주의 메커니즘
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
저자: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
초록
본 연구는 인간 동작 생성의 상호작용적 편집 문제에 대해 탐구합니다. 이전의 동작 확산 모델은 단어 수준의 텍스트-동작 대응을 명시적으로 모델링하지 않고 설명력이 부족하여 세밀한 편집 능력을 제한했습니다. 이 문제를 해결하기 위해 우리는 주의 메커니즘을 명확하게 모델링하는 MotionCLR이라는 주의 기반 동작 확산 모델을 제안합니다. 기술적으로, MotionCLR은 자기 주의와 상호 주의를 사용하여 모달 간 및 교차 모달 간 상호작용을 모델링합니다. 더 구체적으로, 자기 주의 메커니즘은 프레임 간 순차적 유사성을 측정하고 동작 특징의 순서에 영향을 미칩니다. 이에 반해, 교차 주의 메커니즘은 세밀한 단어 시퀀스 대응을 찾고 동작 시퀀스에서 해당 타임스텝을 활성화합니다. 이러한 주요 특성을 기반으로, 주의 맵 조작을 통해 동작 (비)강조, 그 자리 동작 교체, 예제 기반 동작 생성 등 다양하고 효과적인 동작 편집 방법을 개발합니다. 주의 메커니즘의 설명력을 더 검증하기 위해 행동 계산과 주의 맵을 통한 기초적인 동작 생성 능력을 추가로 탐구합니다. 실험 결과는 우리의 방법이 우수한 생성 및 편집 능력과 높은 설명력을 갖는 것을 보여줍니다.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary