DreamVideo-2: Videoaanpassing op basis van onderwerp zonder opnamen met nauwkeurige bewegingsbesturing
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
October 17, 2024
Auteurs: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI
Samenvatting
Recente ontwikkelingen in op maat gemaakte videogeneratie hebben gebruikers in staat gesteld om video's te maken die zijn afgestemd op specifieke onderwerpen en bewegingstrajecten. Echter, bestaande methoden vereisen vaak ingewikkelde fijnafstemming op testtijd en worstelen met het balanceren van het leren van onderwerpen en bewegingscontrole, wat hun toepassingen in de echte wereld beperkt. In dit artikel presenteren we DreamVideo-2, een zero-shot videocustomization-framework dat in staat is om video's te genereren met een specifiek onderwerp en bewegingstraject, geleid door een enkele afbeelding en een sequentie van begrenzingskaders, respectievelijk, zonder de noodzaak van fijnafstemming op testtijd. Specifiek introduceren we referentieaandacht, die gebruikmaakt van de inherente mogelijkheden van het model voor het leren van onderwerpen, en bedenken we een maskergeleide bewegingsmodule om precieze bewegingscontrole te bereiken door volledig gebruik te maken van het robuuste bewegingssignaal van doosmaskers afgeleid van begrenzingskaders. Terwijl deze twee componenten hun beoogde functies vervullen, observeren we empirisch dat bewegingscontrole de neiging heeft om de overhand te hebben boven het leren van onderwerpen. Om dit aan te pakken, stellen we twee belangrijke ontwerpen voor: 1) de gemaskerde referentieaandacht, die een gemengd latent maskermodelleringsmechanisme integreert in referentieaandacht om onderwerprepresentaties op de gewenste posities te verbeteren, en 2) een opnieuw gewogen diffusieverlies, dat onderscheid maakt tussen de bijdragen van regio's binnen en buiten de begrenzingskaders om een balans te waarborgen tussen onderwerp- en bewegingscontrole. Uitgebreide experimentele resultaten op een nieuw samengestelde dataset tonen aan dat DreamVideo-2 beter presteert dan state-of-the-art methoden op zowel onderwerpaanpassing als bewegingscontrole. De dataset, code en modellen zullen publiekelijk beschikbaar worden gesteld.
English
Recent advances in customized video generation have enabled users to create
videos tailored to both specific subjects and motion trajectories. However,
existing methods often require complicated test-time fine-tuning and struggle
with balancing subject learning and motion control, limiting their real-world
applications. In this paper, we present DreamVideo-2, a zero-shot video
customization framework capable of generating videos with a specific subject
and motion trajectory, guided by a single image and a bounding box sequence,
respectively, and without the need for test-time fine-tuning. Specifically, we
introduce reference attention, which leverages the model's inherent
capabilities for subject learning, and devise a mask-guided motion module to
achieve precise motion control by fully utilizing the robust motion signal of
box masks derived from bounding boxes. While these two components achieve their
intended functions, we empirically observe that motion control tends to
dominate over subject learning. To address this, we propose two key designs: 1)
the masked reference attention, which integrates a blended latent mask modeling
scheme into reference attention to enhance subject representations at the
desired positions, and 2) a reweighted diffusion loss, which differentiates the
contributions of regions inside and outside the bounding boxes to ensure a
balance between subject and motion control. Extensive experimental results on a
newly curated dataset demonstrate that DreamVideo-2 outperforms
state-of-the-art methods in both subject customization and motion control. The
dataset, code, and models will be made publicly available.Summary
AI-Generated Summary