UIP2P: Modifica delle immagini basata su istruzioni non supervisionata tramite ciclo di editing coerente

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
Autori: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Abstract

Proponiamo un modello non supervisionato per la modifica delle immagini basata sulle istruzioni che elimina la necessità di immagini modificate di riferimento durante l'addestramento. I metodi supervisionati esistenti dipendono da set di dati contenenti triplette di immagini di input, immagine modificata e istruzione di modifica. Queste vengono generate o da metodi di modifica esistenti o da annotazioni umane, che introducono dei bias e limitano la capacità di generalizzazione. Il nostro metodo affronta queste sfide introducendo un nuovo meccanismo di modifica chiamato Coerenza di Modifica Ciclica (CEC), che applica modifiche in avanti e all'indietro in un singolo passaggio di addestramento e garantisce coerenza negli spazi delle immagini e dell'attenzione. Questo ci consente di evitare la necessità di immagini modificate di riferimento e di avviare per la prima volta l'addestramento su set di dati composti da coppie immagine-didascalia reali o triplette immagine-didascalia-modifica. Dimostriamo empiricamente che la nostra tecnica non supervisionata offre prestazioni migliori su un'ampia gamma di modifiche con alta fedeltà e precisione. Eliminando la necessità di set di dati preesistenti di triplette, riducendo i bias associati ai metodi supervisionati e proponendo CEC, il nostro lavoro rappresenta un significativo avanzamento nello sblocco della scalabilità della modifica delle immagini basata sulle istruzioni.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.

Summary

AI-Generated Summary

PDF53December 20, 2024