ChatPaper.aiChatPaper

MixerMDM: Composizione Apprendibile di Modelli di Diffusione per il Movimento Umano

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
Autori: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

Abstract

Generare movimenti umani guidati da condizioni come descrizioni testuali è una sfida a causa della necessità di dataset con coppie di movimenti di alta qualità e le loro corrispondenti condizioni. La difficoltà aumenta quando si mira a un controllo più fine nella generazione. A tal fine, lavori precedenti hanno proposto di combinare diversi modelli di diffusione del movimento pre-addestrati su dataset con diversi tipi di condizioni, consentendo così il controllo con più condizioni. Tuttavia, le strategie di fusione proposte trascurano che il modo ottimale per combinare i processi di generazione potrebbe dipendere dalle particolarità di ciascun modello generativo pre-addestrato e anche dalle specifiche descrizioni testuali. In questo contesto, introduciamo MixerMDM, la prima tecnica di composizione di modelli apprendibile per combinare modelli di diffusione del movimento umano pre-addestrati condizionati da testo. A differenza degli approcci precedenti, MixerMDM fornisce una strategia di miscelazione dinamica che viene addestrata in modo avversario per imparare a combinare il processo di denoising di ciascun modello in base all'insieme di condizioni che guidano la generazione. Utilizzando MixerMDM per combinare modelli di diffusione del movimento per singole persone e per più persone, otteniamo un controllo fine sulla dinamica di ogni individuo e anche sull'interazione complessiva. Inoltre, proponiamo una nuova tecnica di valutazione che, per la prima volta in questo compito, misura l'interazione e la qualità individuale calcolando l'allineamento tra i movimenti generati miscelati e le loro condizioni, nonché le capacità di MixerMDM di adattare la miscelazione durante il processo di denoising in base ai movimenti da miscelare.
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF182April 2, 2025