LOCATEdit: Graph-Laplacian-optimierte Cross-Attention für lokalisiertes textgesteuertes Bildbearbeiten

Zusammenfassung

Textgesteuerte Bildbearbeitung zielt darauf ab, spezifische Bereiche eines Bildes gemäß natürlicher Sprachanweisungen zu modifizieren, während die allgemeine Struktur und die Hintergrundtreue erhalten bleiben. Bestehende Methoden verwenden Masken, die aus Kreuz-Attentionskarten abgeleitet werden, die von Diffusionsmodellen generiert werden, um die Zielbereiche für die Modifikation zu identifizieren. Da sich Kreuz-Attentionsmechanismen jedoch auf semantische Relevanz konzentrieren, haben sie Schwierigkeiten, die Bildintegrität aufrechtzuerhalten. Infolgedessen fehlt diesen Methoden oft die räumliche Konsistenz, was zu Bearbeitungsartefakten und Verzerrungen führt. In dieser Arbeit adressieren wir diese Einschränkungen und stellen LOCATEdit vor, das Kreuz-Attentionskarten durch einen graphenbasierten Ansatz verbessert, der selbst-attentionsbasierte Patch-Beziehungen nutzt, um eine glatte, kohärente Aufmerksamkeit über Bildbereiche hinweg zu erhalten. Dadurch wird sichergestellt, dass Änderungen auf die vorgesehenen Objekte beschränkt bleiben, während die umgebende Struktur erhalten bleibt. \method übertrifft bestehende Baselines auf PIE-Bench durchweg und deutlich und demonstriert damit seine state-of-the-art Leistung und Effektivität bei verschiedenen Bearbeitungsaufgaben. Der Code ist auf https://github.com/LOCATEdit/LOCATEdit/ verfügbar.

English

Text-guided image editing aims to modify specific regions of an image according to natural language instructions while maintaining the general structure and the background fidelity. Existing methods utilize masks derived from cross-attention maps generated from diffusion models to identify the target regions for modification. However, since cross-attention mechanisms focus on semantic relevance, they struggle to maintain the image integrity. As a result, these methods often lack spatial consistency, leading to editing artifacts and distortions. In this work, we address these limitations and introduce LOCATEdit, which enhances cross-attention maps through a graph-based approach utilizing self-attention-derived patch relationships to maintain smooth, coherent attention across image regions, ensuring that alterations are limited to the designated items while retaining the surrounding structure. \method consistently and substantially outperforms existing baselines on PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on various editing tasks. Code can be found on https://github.com/LOCATEdit/LOCATEdit/

LOCATEdit: Graph-Laplacian-optimierte Cross-Attention für lokalisiertes textgesteuertes Bildbearbeiten

LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Zusammenfassung

Summary

Support