DreamO: Een Geïntegreerd Framework voor Beeldaanpassing

Samenvatting

Recentelijk heeft uitgebreid onderzoek naar beeldaanpassing (bijv. identiteit, onderwerp, stijl, achtergrond, enz.) sterke aanpassingsmogelijkheden aangetoond in grootschalige generatieve modellen. De meeste benaderingen zijn echter ontworpen voor specifieke taken, wat hun generaliseerbaarheid beperkt om verschillende soorten voorwaarden te combineren. Het ontwikkelen van een uniform raamwerk voor beeldaanpassing blijft een open uitdaging. In dit artikel presenteren we DreamO, een raamwerk voor beeldaanpassing dat is ontworpen om een breed scala aan taken te ondersteunen en tegelijkertijd een naadloze integratie van meerdere voorwaarden mogelijk te maken. Specifiek maakt DreamO gebruik van een diffusie-transformer (DiT) raamwerk om invoer van verschillende typen uniform te verwerken. Tijdens de training construeren we een grootschalige trainingsdataset die verschillende aanpassingstaken omvat, en introduceren we een feature routing-beperking om het precieze opvragen van relevante informatie uit referentiebeelden te vergemakkelijken. Daarnaast ontwerpen we een placeholder-strategie die specifieke placeholders associeert met voorwaarden op bepaalde posities, waardoor controle over de plaatsing van voorwaarden in de gegenereerde resultaten mogelijk wordt. Bovendien gebruiken we een progressieve trainingsstrategie die bestaat uit drie fasen: een initiële fase gericht op eenvoudige taken met beperkte data om basisconsistentie te bereiken, een grootschalige trainingsfase om de aanpassingsmogelijkheden uitgebreid te verbeteren, en een laatste kwaliteitsafstemmingsfase om kwaliteitsvooroordelen te corrigeren die door data van lage kwaliteit zijn geïntroduceerd. Uitgebreide experimenten tonen aan dat de voorgestelde DreamO effectief verschillende beeldaanpassingstaken kan uitvoeren met hoge kwaliteit en flexibel verschillende soorten controlecondities kan integreren.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO: Een Geïntegreerd Framework voor Beeldaanpassing

DreamO: A Unified Framework for Image Customization

Samenvatting

Summary

Support

Support