Instruct-CLIP: Verbesserung der instruktionsgesteuerten Bildbearbeitung durch automatisierte Datenverfeinerung mittels kontrastivem Lernen
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
March 24, 2025
Autoren: Sherry X. Chen, Misha Sra, Pradeep Sen
cs.AI
Zusammenfassung
Obwohl natürliche Sprachanweisungen eine intuitive Möglichkeit bieten, die automatisierte Bildbearbeitung zu steuern, haben Deep-Learning-Modelle oft Schwierigkeiten, hochwertige Ergebnisse zu erzielen, was größtenteils auf die Herausforderungen bei der Erstellung großer, qualitativ hochwertiger Trainingsdatensätze zurückzuführen ist. Bisherige Arbeiten haben sich typischerweise auf Text-zu-Bild (T2I)-Generativmodelle verlassen, um Paare von Original- und bearbeiteten Bildern zu erzeugen, die die Eingabe/Ausgabe eines anweisungsgesteuerten Bildbearbeitungsmodells simulieren. Diese Bildpaare entsprechen jedoch oft nicht den spezifizierten Bearbeitungsanweisungen, was auf die Einschränkungen der T2I-Modelle zurückzuführen ist und sich negativ auf Modelle auswirkt, die mit solchen Datensätzen trainiert werden. Um dies zu beheben, stellen wir Instruct-CLIP vor, eine selbstüberwachte Methode, die die semantischen Veränderungen zwischen Original- und bearbeiteten Bildern lernt, um die Anweisungen in bestehenden Datensätzen zu verfeinern und besser auszurichten. Darüber hinaus passen wir Instruct-CLIP an, um mit verrauschten latenten Bildern und Diffusion-Zeitschritten umzugehen, sodass es zur Trainierung latenter Diffusionsmodelle (LDMs) [19] verwendet werden kann und effizient die Ausrichtung zwischen der Bearbeitungsanweisung und den Bildveränderungen im latenten Raum in jedem Schritt des Diffusionsprozesses sicherstellt. Wir verwenden Instruct-CLIP, um den InstructPix2Pix-Datensatz zu korrigieren und erhalten über 120.000 verfeinerte Proben, die wir dann zur Feinabstimmung ihres Modells verwenden, geleitet von unserer neuartigen, auf Instruct-CLIP basierenden Verlustfunktion. Das resultierende Modell kann Bearbeitungen erzeugen, die besser mit den gegebenen Anweisungen übereinstimmen. Unser Code und Datensatz sind verfügbar unter https://github.com/SherryXTChen/Instruct-CLIP.git.
English
Although natural language instructions offer an intuitive way to guide
automated image editing, deep-learning models often struggle to achieve
high-quality results, largely due to challenges in creating large, high-quality
training datasets. Previous work has typically relied on text-toimage (T2I)
generative models to produce pairs of original and edited images that simulate
the input/output of an instruction-guided image-editing model. However, these
image pairs often fail to align with the specified edit instructions due to the
limitations of T2I models, which negatively impacts models trained on such
datasets. To address this, we present Instruct-CLIP, a self-supervised method
that learns the semantic changes between original and edited images to refine
and better align the instructions in existing datasets. Furthermore, we adapt
Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it
can be used to train latent diffusion models (LDMs) [19] and efficiently
enforce alignment between the edit instruction and the image changes in latent
space at any step of the diffusion pipeline. We use Instruct-CLIP to correct
the InstructPix2Pix dataset and get over 120K refined samples we then use to
fine-tune their model, guided by our novel Instruct-CLIP-based loss function.
The resulting model can produce edits that are more aligned with the given
instructions. Our code and dataset are available at
https://github.com/SherryXTChen/Instruct-CLIP.git.Summary
AI-Generated Summary