BlobCtrl: Ein einheitliches und flexibles Framework für die elementbasierte Bildgenerierung und -bearbeitung

Zusammenfassung

Die visuelle Manipulation auf Elementebene ist entscheidend für die digitale Inhaltserstellung, doch aktuellen diffusionsbasierten Methoden fehlt die Präzision und Flexibilität traditioneller Werkzeuge. In dieser Arbeit stellen wir BlobCtrl vor, ein Framework, das die Erzeugung und Bearbeitung auf Elementebene durch eine probabilistische, blob-basierte Repräsentation vereinheitlicht. Durch die Verwendung von Blobs als visuelle Grundelemente entkoppelt und repräsentiert unser Ansatz effektiv räumliche Position, semantischen Inhalt und Identitätsinformationen, was eine präzise Manipulation auf Elementebene ermöglicht. Unsere wesentlichen Beiträge umfassen: 1) eine Dual-Branch-Diffusionsarchitektur mit hierarchischer Merkmalsfusion für nahtlose Integration von Vordergrund und Hintergrund; 2) ein selbstüberwachtes Trainingsparadigma mit maßgeschneiderter Datenaugmentierung und Bewertungsfunktionen; und 3) kontrollierbare Dropout-Strategien zur Balance zwischen Detailtreue und Vielfalt. Um die weitere Forschung zu unterstützen, führen wir BlobData für groß angelegtes Training und BlobBench für systematische Evaluation ein. Experimente zeigen, dass BlobCtrl in verschiedenen Aufgaben der Elementmanipulation hervorragende Ergebnisse erzielt und dabei Recheneffizienz bewahrt, was eine praktische Lösung für präzise und flexible visuelle Inhaltserstellung bietet. Projektseite: https://liyaowei-stu.github.io/project/BlobCtrl/

English

Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

BlobCtrl: Ein einheitliches und flexibles Framework für die elementbasierte Bildgenerierung und -bearbeitung

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Zusammenfassung

Summary

Support

Support