Instruct-CLIP: Verbesserung der instruktionsgesteuerten Bildbearbeitung durch automatisierte Datenverfeinerung mittels kontrastivem Lernen

Zusammenfassung

Obwohl natürliche Sprachanweisungen eine intuitive Möglichkeit bieten, die automatisierte Bildbearbeitung zu steuern, haben Deep-Learning-Modelle oft Schwierigkeiten, hochwertige Ergebnisse zu erzielen, was größtenteils auf die Herausforderungen bei der Erstellung großer, qualitativ hochwertiger Trainingsdatensätze zurückzuführen ist. Bisherige Arbeiten haben sich typischerweise auf Text-zu-Bild (T2I)-Generativmodelle verlassen, um Paare von Original- und bearbeiteten Bildern zu erzeugen, die die Eingabe/Ausgabe eines anweisungsgesteuerten Bildbearbeitungsmodells simulieren. Diese Bildpaare entsprechen jedoch oft nicht den spezifizierten Bearbeitungsanweisungen, was auf die Einschränkungen der T2I-Modelle zurückzuführen ist und sich negativ auf Modelle auswirkt, die mit solchen Datensätzen trainiert werden. Um dies zu beheben, stellen wir Instruct-CLIP vor, eine selbstüberwachte Methode, die die semantischen Veränderungen zwischen Original- und bearbeiteten Bildern lernt, um die Anweisungen in bestehenden Datensätzen zu verfeinern und besser auszurichten. Darüber hinaus passen wir Instruct-CLIP an, um mit verrauschten latenten Bildern und Diffusion-Zeitschritten umzugehen, sodass es zur Trainierung latenter Diffusionsmodelle (LDMs) [19] verwendet werden kann und effizient die Ausrichtung zwischen der Bearbeitungsanweisung und den Bildveränderungen im latenten Raum in jedem Schritt des Diffusionsprozesses sicherstellt. Wir verwenden Instruct-CLIP, um den InstructPix2Pix-Datensatz zu korrigieren und erhalten über 120.000 verfeinerte Proben, die wir dann zur Feinabstimmung ihres Modells verwenden, geleitet von unserer neuartigen, auf Instruct-CLIP basierenden Verlustfunktion. Das resultierende Modell kann Bearbeitungen erzeugen, die besser mit den gegebenen Anweisungen übereinstimmen. Unser Code und Datensatz sind verfügbar unter https://github.com/SherryXTChen/Instruct-CLIP.git.

English

Although natural language instructions offer an intuitive way to guide automated image editing, deep-learning models often struggle to achieve high-quality results, largely due to challenges in creating large, high-quality training datasets. Previous work has typically relied on text-toimage (T2I) generative models to produce pairs of original and edited images that simulate the input/output of an instruction-guided image-editing model. However, these image pairs often fail to align with the specified edit instructions due to the limitations of T2I models, which negatively impacts models trained on such datasets. To address this, we present Instruct-CLIP, a self-supervised method that learns the semantic changes between original and edited images to refine and better align the instructions in existing datasets. Furthermore, we adapt Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it can be used to train latent diffusion models (LDMs) [19] and efficiently enforce alignment between the edit instruction and the image changes in latent space at any step of the diffusion pipeline. We use Instruct-CLIP to correct the InstructPix2Pix dataset and get over 120K refined samples we then use to fine-tune their model, guided by our novel Instruct-CLIP-based loss function. The resulting model can produce edits that are more aligned with the given instructions. Our code and dataset are available at https://github.com/SherryXTChen/Instruct-CLIP.git.

Instruct-CLIP: Verbesserung der instruktionsgesteuerten Bildbearbeitung durch automatisierte Datenverfeinerung mittels kontrastivem Lernen

Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning

Zusammenfassung

Summary

Support