ChatPaper.aiChatPaper

VACE: All-in-One Videoproduktion und -bearbeitung

VACE: All-in-One Video Creation and Editing

March 10, 2025
Autoren: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI

Zusammenfassung

Der Diffusion Transformer hat seine leistungsstarken Fähigkeiten und Skalierbarkeit bei der Erzeugung hochwertiger Bilder und Videos unter Beweis gestellt. Die weitere Verfolgung der Vereinheitlichung von Generierungs- und Bearbeitungsaufgaben hat erhebliche Fortschritte im Bereich der Bildinhaltserstellung gebracht. Aufgrund der intrinsischen Anforderungen an Konsistenz sowohl in zeitlicher als auch räumlicher Dynamik bleibt die Entwicklung eines einheitlichen Ansatzes für die Videosynthese jedoch eine Herausforderung. Wir stellen VACE vor, das es Benutzern ermöglicht, Videoaufgaben innerhalb eines All-in-One-Frameworks für Erstellung und Bearbeitung durchzuführen. Diese Aufgaben umfassen die Referenz-zu-Video-Generierung, Video-zu-Video-Bearbeitung und maskierte Video-zu-Video-Bearbeitung. Insbesondere integrieren wir die Anforderungen verschiedener Aufgaben effektiv, indem wir Videoaufgaben-Eingaben wie Bearbeitung, Referenz und Maskierung in eine einheitliche Schnittstelle, die als Video Condition Unit (VCU) bezeichnet wird, organisieren. Darüber hinaus nutzen wir eine Context Adapter-Struktur, um verschiedene Aufgabenkonzepte durch formalisierte Darstellungen der zeitlichen und räumlichen Dimensionen in das Modell einzubinden, wodurch es flexibel beliebige Videosyntheseaufgaben bewältigen kann. Umfangreiche Experimente zeigen, dass das einheitliche Modell von VACE eine Leistung erzielt, die mit aufgabenspezifischen Modellen über verschiedene Teilaufgaben hinweg vergleichbar ist. Gleichzeitig ermöglicht es durch vielseitige Aufgabenkombinationen diverse Anwendungen. Projektseite: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

Summary

AI-Generated Summary

PDF465March 11, 2025