DreamO: Een Geïntegreerd Framework voor Beeldaanpassing
DreamO: A Unified Framework for Image Customization
April 23, 2025
Auteurs: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Samenvatting
Recentelijk heeft uitgebreid onderzoek naar beeldaanpassing (bijv. identiteit, onderwerp, stijl, achtergrond, enz.) sterke aanpassingsmogelijkheden aangetoond in grootschalige generatieve modellen. De meeste benaderingen zijn echter ontworpen voor specifieke taken, wat hun generaliseerbaarheid beperkt om verschillende soorten voorwaarden te combineren. Het ontwikkelen van een uniform raamwerk voor beeldaanpassing blijft een open uitdaging. In dit artikel presenteren we DreamO, een raamwerk voor beeldaanpassing dat is ontworpen om een breed scala aan taken te ondersteunen en tegelijkertijd een naadloze integratie van meerdere voorwaarden mogelijk te maken. Specifiek maakt DreamO gebruik van een diffusie-transformer (DiT) raamwerk om invoer van verschillende typen uniform te verwerken. Tijdens de training construeren we een grootschalige trainingsdataset die verschillende aanpassingstaken omvat, en introduceren we een feature routing-beperking om het precieze opvragen van relevante informatie uit referentiebeelden te vergemakkelijken. Daarnaast ontwerpen we een placeholder-strategie die specifieke placeholders associeert met voorwaarden op bepaalde posities, waardoor controle over de plaatsing van voorwaarden in de gegenereerde resultaten mogelijk wordt. Bovendien gebruiken we een progressieve trainingsstrategie die bestaat uit drie fasen: een initiële fase gericht op eenvoudige taken met beperkte data om basisconsistentie te bereiken, een grootschalige trainingsfase om de aanpassingsmogelijkheden uitgebreid te verbeteren, en een laatste kwaliteitsafstemmingsfase om kwaliteitsvooroordelen te corrigeren die door data van lage kwaliteit zijn geïntroduceerd. Uitgebreide experimenten tonen aan dat de voorgestelde DreamO effectief verschillende beeldaanpassingstaken kan uitvoeren met hoge kwaliteit en flexibel verschillende soorten controlecondities kan integreren.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary