VACE: Alles-in-Één Videoproductie en Bewerking
VACE: All-in-One Video Creation and Editing
March 10, 2025
Auteurs: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
cs.AI
Samenvatting
Diffusion Transformer heeft een krachtige capaciteit en schaalbaarheid getoond bij het genereren van hoogwaardige afbeeldingen en video's. Het verder nastreven van de unificatie van generatie- en bewerkingstaken heeft aanzienlijke vooruitgang geboekt in het domein van beeldinhoudcreatie. Vanwege de inherente eisen voor consistentie in zowel temporele als ruimtelijke dynamiek blijft het echter een uitdaging om een uniforme aanpak voor videosynthese te bereiken. Wij introduceren VACE, waarmee gebruikers videotaken kunnen uitvoeren binnen een alles-in-één framework voor creatie en bewerking. Deze taken omvatten referentie-naar-video generatie, video-naar-video bewerking, en gemaskeerde video-naar-video bewerking. Specifiek integreren we de vereisten van verschillende taken effectief door video-taakinvoeren, zoals bewerking, referentie en maskering, te organiseren in een uniforme interface die de Video Condition Unit (VCU) wordt genoemd. Bovendien gebruiken we een Context Adapter-structuur om verschillende taakconcepten in het model te injecteren met behulp van geformaliseerde representaties van temporele en ruimtelijke dimensies, waardoor het flexibel willekeurige videosynthesetaken kan verwerken. Uitgebreide experimenten tonen aan dat het uniforme model van VACE prestaties bereikt die vergelijkbaar zijn met taakspecifieke modellen over verschillende subtaken. Tegelijkertijd maakt het diverse toepassingen mogelijk door middel van veelzijdige taakcombinaties. Projectpagina: https://ali-vilab.github.io/VACE-Page/.
English
Diffusion Transformer has demonstrated powerful capability and scalability in
generating high-quality images and videos. Further pursuing the unification of
generation and editing tasks has yielded significant progress in the domain of
image content creation. However, due to the intrinsic demands for consistency
across both temporal and spatial dynamics, achieving a unified approach for
video synthesis remains challenging. We introduce VACE, which enables users to
perform Video tasks within an All-in-one framework for Creation and Editing.
These tasks include reference-to-video generation, video-to-video editing, and
masked video-to-video editing. Specifically, we effectively integrate the
requirements of various tasks by organizing video task inputs, such as editing,
reference, and masking, into a unified interface referred to as the Video
Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we
inject different task concepts into the model using formalized representations
of temporal and spatial dimensions, allowing it to handle arbitrary video
synthesis tasks flexibly. Extensive experiments demonstrate that the unified
model of VACE achieves performance on par with task-specific models across
various subtasks. Simultaneously, it enables diverse applications through
versatile task combinations. Project page:
https://ali-vilab.github.io/VACE-Page/.Summary
AI-Generated Summary