BlobCtrl: Ein einheitliches und flexibles Framework für die elementbasierte Bildgenerierung und -bearbeitung
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Autoren: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Zusammenfassung
Die visuelle Manipulation auf Elementebene ist entscheidend für die digitale Inhaltserstellung, doch aktuellen diffusionsbasierten Methoden fehlt die Präzision und Flexibilität traditioneller Werkzeuge. In dieser Arbeit stellen wir BlobCtrl vor, ein Framework, das die Erzeugung und Bearbeitung auf Elementebene durch eine probabilistische, blob-basierte Repräsentation vereinheitlicht. Durch die Verwendung von Blobs als visuelle Grundelemente entkoppelt und repräsentiert unser Ansatz effektiv räumliche Position, semantischen Inhalt und Identitätsinformationen, was eine präzise Manipulation auf Elementebene ermöglicht. Unsere wesentlichen Beiträge umfassen: 1) eine Dual-Branch-Diffusionsarchitektur mit hierarchischer Merkmalsfusion für nahtlose Integration von Vordergrund und Hintergrund; 2) ein selbstüberwachtes Trainingsparadigma mit maßgeschneiderter Datenaugmentierung und Bewertungsfunktionen; und 3) kontrollierbare Dropout-Strategien zur Balance zwischen Detailtreue und Vielfalt. Um die weitere Forschung zu unterstützen, führen wir BlobData für groß angelegtes Training und BlobBench für systematische Evaluation ein. Experimente zeigen, dass BlobCtrl in verschiedenen Aufgaben der Elementmanipulation hervorragende Ergebnisse erzielt und dabei Recheneffizienz bewahrt, was eine praktische Lösung für präzise und flexible visuelle Inhaltserstellung bietet. Projektseite: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/Summary
AI-Generated Summary