Ermöglichung vielseitiger Steuerungen für Video-Diffusionsmodelle

Zusammenfassung

Trotz erheblicher Fortschritte in der Text-zu-Video-Generierung bleibt die präzise und flexible Steuerung feinkörniger raumzeitlicher Attribute eine bedeutende ungelöste Herausforderung in der Videogenerierungsforschung. Um diese Einschränkungen zu überwinden, stellen wir VCtrl (auch als PP-VCtrl bezeichnet) vor, ein neuartiges Framework, das eine feinkörnige Steuerung vortrainierter Video-Diffusionsmodelle auf einheitliche Weise ermöglicht. VCtrl integriert diverse benutzerdefinierte Steuersignale – wie Canny-Kanten, Segmentierungsmasken und menschliche Keypoints – in vortrainierte Video-Diffusionsmodelle über ein generalisierbares bedingtes Modul, das in der Lage ist, mehrere Arten von Hilfssignalen einheitlich zu kodieren, ohne den zugrunde liegenden Generator zu modifizieren. Zusätzlich entwerfen wir eine einheitliche Pipeline zur Kodierung von Steuersignalen und einen Mechanismus für spärliche Restverbindungen, um Steuerungsrepräsentationen effizient einzubinden. Umfassende Experimente und menschliche Bewertungen zeigen, dass VCtrl die Steuerbarkeit und Generierungsqualität effektiv verbessert. Der Quellcode und die vortrainierten Modelle sind öffentlich verfügbar und wurden mit dem PaddlePaddle-Framework unter http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl implementiert.

English

Despite substantial progress in text-to-video generation, achieving precise and flexible control over fine-grained spatiotemporal attributes remains a significant unresolved challenge in video generation research. To address these limitations, we introduce VCtrl (also termed PP-VCtrl), a novel framework designed to enable fine-grained control over pre-trained video diffusion models in a unified manner. VCtrl integrates diverse user-specified control signals-such as Canny edges, segmentation masks, and human keypoints-into pretrained video diffusion models via a generalizable conditional module capable of uniformly encoding multiple types of auxiliary signals without modifying the underlying generator. Additionally, we design a unified control signal encoding pipeline and a sparse residual connection mechanism to efficiently incorporate control representations. Comprehensive experiments and human evaluations demonstrate that VCtrl effectively enhances controllability and generation quality. The source code and pre-trained models are publicly available and implemented using the PaddlePaddle framework at http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Ermöglichung vielseitiger Steuerungen für Video-Diffusionsmodelle

Enabling Versatile Controls for Video Diffusion Models

Zusammenfassung

Summary

Support