Disapprendimento del Movimento Umano
Human Motion Unlearning
March 24, 2025
Autori: Edoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso
cs.AI
Abstract
Introduciamo il compito di unlearning del movimento umano per prevenire la sintesi di animazioni tossiche preservando al contempo le prestazioni generative generali del modello text-to-motion. L'unlearning di movimenti tossici è una sfida poiché questi possono essere generati sia da prompt testuali espliciti che da combinazioni implicite di movimenti sicuri (ad esempio, "calciare" è "caricare e oscillare una gamba"). Proponiamo il primo benchmark per l'unlearning del movimento filtrando i movimenti tossici dai recenti e ampi dataset text-to-motion di HumanML3D e Motion-X. Proponiamo baseline adattando tecniche di unlearning per immagini allo stato dell'arte per elaborare segnali spazio-temporali. Infine, proponiamo un nuovo modello di unlearning del movimento basato su Latent Code Replacement, che chiamiamo LCR. LCR è privo di addestramento e adatto agli spazi latenti discreti dei modelli di diffusione text-to-motion all'avanguardia. LCR è semplice e supera costantemente le baseline sia qualitativamente che quantitativamente. Pagina del progetto: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
English
We introduce the task of human motion unlearning to prevent the synthesis of
toxic animations while preserving the general text-to-motion generative
performance. Unlearning toxic motions is challenging as those can be generated
from explicit text prompts and from implicit toxic combinations of safe motions
(e.g., ``kicking" is ``loading and swinging a leg"). We propose the first
motion unlearning benchmark by filtering toxic motions from the large and
recent text-to-motion datasets of HumanML3D and Motion-X. We propose baselines,
by adapting state-of-the-art image unlearning techniques to process
spatio-temporal signals. Finally, we propose a novel motion unlearning model
based on Latent Code Replacement, which we dub LCR. LCR is training-free and
suitable to the discrete latent spaces of state-of-the-art text-to-motion
diffusion models. LCR is simple and consistently outperforms baselines
qualitatively and quantitatively. Project page:
https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.Summary
AI-Generated Summary