Modelli di diffusione video consapevoli del target
Target-Aware Video Diffusion Models
March 24, 2025
Autori: Taeksoo Kim, Hanbyul Joo
cs.AI
Abstract
Presentiamo un modello di diffusione video consapevole del target che genera video da un'immagine di input in cui un attore interagisce con un target specificato mentre esegue un'azione desiderata. Il target è definito da una maschera di segmentazione e l'azione desiderata è descritta tramite un prompt testuale. A differenza dei modelli di diffusione controllata da immagine a video esistenti, che spesso si affidano a segnali strutturali o di movimento densi per guidare i movimenti dell'attore verso il target, il nostro modello consapevole del target richiede solo una semplice maschera per indicare il target, sfruttando le capacità di generalizzazione dei modelli pre-addestrati per produrre azioni plausibili. Ciò rende il nostro metodo particolarmente efficace per scenari di interazione uomo-oggetto (HOI), dove fornire una guida precisa all'azione è impegnativo, e consente ulteriormente l'uso di modelli di diffusione video per la pianificazione di azioni di alto livello in applicazioni come la robotica. Costruiamo il nostro modello consapevole del target estendendo un modello di base per incorporare la maschera del target come input aggiuntivo. Per imporre la consapevolezza del target, introduciamo un token speciale che codifica le informazioni spaziali del target all'interno del prompt testuale. Successivamente, ottimizziamo il modello con il nostro dataset curato utilizzando una nuova funzione di perdita di cross-attention che allinea le mappe di cross-attention associate a questo token con la maschera del target di input. Per migliorare ulteriormente le prestazioni, applichiamo selettivamente questa perdita ai blocchi di trasformatori e alle regioni di attenzione semanticamente più rilevanti. I risultati sperimentali mostrano che il nostro modello consapevole del target supera le soluzioni esistenti nella generazione di video in cui gli attori interagiscono accuratamente con i target specificati. Dimostriamo inoltre la sua efficacia in due applicazioni downstream: creazione di contenuti video e sintesi di movimento 3D HOI zero-shot.
English
We present a target-aware video diffusion model that generates videos from an
input image in which an actor interacts with a specified target while
performing a desired action. The target is defined by a segmentation mask and
the desired action is described via a text prompt. Unlike existing controllable
image-to-video diffusion models that often rely on dense structural or motion
cues to guide the actor's movements toward the target, our target-aware model
requires only a simple mask to indicate the target, leveraging the
generalization capabilities of pretrained models to produce plausible actions.
This makes our method particularly effective for human-object interaction (HOI)
scenarios, where providing precise action guidance is challenging, and further
enables the use of video diffusion models for high-level action planning in
applications such as robotics. We build our target-aware model by extending a
baseline model to incorporate the target mask as an additional input. To
enforce target awareness, we introduce a special token that encodes the
target's spatial information within the text prompt. We then fine-tune the
model with our curated dataset using a novel cross-attention loss that aligns
the cross-attention maps associated with this token with the input target mask.
To further improve performance, we selectively apply this loss to the most
semantically relevant transformer blocks and attention regions. Experimental
results show that our target-aware model outperforms existing solutions in
generating videos where actors interact accurately with the specified targets.
We further demonstrate its efficacy in two downstream applications: video
content creation and zero-shot 3D HOI motion synthesis.Summary
AI-Generated Summary