DreamO: Ein einheitliches Framework für die Bildanpassung
DreamO: A Unified Framework for Image Customization
April 23, 2025
Autoren: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Zusammenfassung
In jüngster Zeit zeigt umfangreiche Forschung zur Bildanpassung (z. B. Identität, Motiv, Stil, Hintergrund usw.) starke Anpassungsfähigkeiten in großskaligen generativen Modellen. Die meisten Ansätze sind jedoch für spezifische Aufgaben konzipiert, was ihre Generalisierbarkeit zur Kombination verschiedener Arten von Bedingungen einschränkt. Die Entwicklung eines einheitlichen Frameworks für die Bildanpassung bleibt eine offene Herausforderung. In diesem Artikel stellen wir DreamO vor, ein Framework zur Bildanpassung, das darauf ausgelegt ist, eine breite Palette von Aufgaben zu unterstützen und gleichzeitig die nahtlose Integration mehrerer Bedingungen zu ermöglichen. Insbesondere nutzt DreamO ein Diffusion-Transformer (DiT)-Framework, um Eingaben verschiedener Typen einheitlich zu verarbeiten. Während des Trainings erstellen wir einen großskaligen Trainingsdatensatz, der verschiedene Anpassungsaufgaben umfasst, und führen eine Feature-Routing-Einschränkung ein, um die präzise Abfrage relevanter Informationen aus Referenzbildern zu erleichtern. Zusätzlich entwerfen wir eine Platzhalterstrategie, die spezifische Platzhalter mit Bedingungen an bestimmten Positionen verknüpft, wodurch die Platzierung von Bedingungen in den generierten Ergebnissen gesteuert werden kann. Darüber hinaus verwenden wir eine progressive Trainingsstrategie, die aus drei Phasen besteht: einer Anfangsphase, die sich auf einfache Aufgaben mit begrenzten Daten konzentriert, um eine grundlegende Konsistenz zu schaffen, einer umfassenden Trainingsphase, um die Anpassungsfähigkeiten vollständig zu verbessern, und einer abschließenden Qualitätsausrichtungsphase, um Qualitätsverzerrungen zu korrigieren, die durch Daten von geringer Qualität eingeführt wurden. Umfangreiche Experimente zeigen, dass das vorgeschlagene DreamO effektiv verschiedene Bildanpassungsaufgaben in hoher Qualität ausführen und flexibel unterschiedliche Arten von Steuerungsbedingungen integrieren kann.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary