LOCATEdit: Graph-Laplacian-optimierte Cross-Attention für lokalisiertes textgesteuertes Bildbearbeiten
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
March 27, 2025
Autoren: Achint Soni, Meet Soni, Sirisha Rambhatla
cs.AI
Zusammenfassung
Textgesteuerte Bildbearbeitung zielt darauf ab, spezifische Bereiche eines Bildes gemäß natürlicher Sprachanweisungen zu modifizieren, während die allgemeine Struktur und die Hintergrundtreue erhalten bleiben. Bestehende Methoden verwenden Masken, die aus Kreuz-Attentionskarten abgeleitet werden, die von Diffusionsmodellen generiert werden, um die Zielbereiche für die Modifikation zu identifizieren. Da sich Kreuz-Attentionsmechanismen jedoch auf semantische Relevanz konzentrieren, haben sie Schwierigkeiten, die Bildintegrität aufrechtzuerhalten. Infolgedessen fehlt diesen Methoden oft die räumliche Konsistenz, was zu Bearbeitungsartefakten und Verzerrungen führt. In dieser Arbeit adressieren wir diese Einschränkungen und stellen LOCATEdit vor, das Kreuz-Attentionskarten durch einen graphenbasierten Ansatz verbessert, der selbst-attentionsbasierte Patch-Beziehungen nutzt, um eine glatte, kohärente Aufmerksamkeit über Bildbereiche hinweg zu erhalten. Dadurch wird sichergestellt, dass Änderungen auf die vorgesehenen Objekte beschränkt bleiben, während die umgebende Struktur erhalten bleibt. \method übertrifft bestehende Baselines auf PIE-Bench durchweg und deutlich und demonstriert damit seine state-of-the-art Leistung und Effektivität bei verschiedenen Bearbeitungsaufgaben. Der Code ist auf https://github.com/LOCATEdit/LOCATEdit/ verfügbar.
English
Text-guided image editing aims to modify specific regions of an image
according to natural language instructions while maintaining the general
structure and the background fidelity. Existing methods utilize masks derived
from cross-attention maps generated from diffusion models to identify the
target regions for modification. However, since cross-attention mechanisms
focus on semantic relevance, they struggle to maintain the image integrity. As
a result, these methods often lack spatial consistency, leading to editing
artifacts and distortions. In this work, we address these limitations and
introduce LOCATEdit, which enhances cross-attention maps through a graph-based
approach utilizing self-attention-derived patch relationships to maintain
smooth, coherent attention across image regions, ensuring that alterations are
limited to the designated items while retaining the surrounding structure.
\method consistently and substantially outperforms existing baselines on
PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on
various editing tasks. Code can be found on
https://github.com/LOCATEdit/LOCATEdit/Summary
AI-Generated Summary