Ermöglichung vielseitiger Steuerungen für Video-Diffusionsmodelle
Enabling Versatile Controls for Video Diffusion Models
March 21, 2025
Autoren: Xu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu
cs.AI
Zusammenfassung
Trotz erheblicher Fortschritte in der Text-zu-Video-Generierung bleibt die präzise und flexible Steuerung feinkörniger raumzeitlicher Attribute eine bedeutende ungelöste Herausforderung in der Videogenerierungsforschung. Um diese Einschränkungen zu überwinden, stellen wir VCtrl (auch als PP-VCtrl bezeichnet) vor, ein neuartiges Framework, das eine feinkörnige Steuerung vortrainierter Video-Diffusionsmodelle auf einheitliche Weise ermöglicht. VCtrl integriert diverse benutzerdefinierte Steuersignale – wie Canny-Kanten, Segmentierungsmasken und menschliche Keypoints – in vortrainierte Video-Diffusionsmodelle über ein generalisierbares bedingtes Modul, das in der Lage ist, mehrere Arten von Hilfssignalen einheitlich zu kodieren, ohne den zugrunde liegenden Generator zu modifizieren. Zusätzlich entwerfen wir eine einheitliche Pipeline zur Kodierung von Steuersignalen und einen Mechanismus für spärliche Restverbindungen, um Steuerungsrepräsentationen effizient einzubinden. Umfassende Experimente und menschliche Bewertungen zeigen, dass VCtrl die Steuerbarkeit und Generierungsqualität effektiv verbessert. Der Quellcode und die vortrainierten Modelle sind öffentlich verfügbar und wurden mit dem PaddlePaddle-Framework unter http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl implementiert.
English
Despite substantial progress in text-to-video generation, achieving precise
and flexible control over fine-grained spatiotemporal attributes remains a
significant unresolved challenge in video generation research. To address these
limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework
designed to enable fine-grained control over pre-trained video diffusion models
in a unified manner. VCtrl integrates diverse user-specified control
signals-such as Canny edges, segmentation masks, and human keypoints-into
pretrained video diffusion models via a generalizable conditional module
capable of uniformly encoding multiple types of auxiliary signals without
modifying the underlying generator. Additionally, we design a unified control
signal encoding pipeline and a sparse residual connection mechanism to
efficiently incorporate control representations. Comprehensive experiments and
human evaluations demonstrate that VCtrl effectively enhances controllability
and generation quality. The source code and pre-trained models are publicly
available and implemented using the PaddlePaddle framework at
http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.Summary
AI-Generated Summary