UIP2P: Modifica delle immagini basata su istruzioni non supervisionata tramite ciclo di editing coerente
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
December 19, 2024
Autori: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Abstract
Proponiamo un modello non supervisionato per la modifica delle immagini basata sulle istruzioni che elimina la necessità di immagini modificate di riferimento durante l'addestramento. I metodi supervisionati esistenti dipendono da set di dati contenenti triplette di immagini di input, immagine modificata e istruzione di modifica. Queste vengono generate o da metodi di modifica esistenti o da annotazioni umane, che introducono dei bias e limitano la capacità di generalizzazione. Il nostro metodo affronta queste sfide introducendo un nuovo meccanismo di modifica chiamato Coerenza di Modifica Ciclica (CEC), che applica modifiche in avanti e all'indietro in un singolo passaggio di addestramento e garantisce coerenza negli spazi delle immagini e dell'attenzione. Questo ci consente di evitare la necessità di immagini modificate di riferimento e di avviare per la prima volta l'addestramento su set di dati composti da coppie immagine-didascalia reali o triplette immagine-didascalia-modifica. Dimostriamo empiricamente che la nostra tecnica non supervisionata offre prestazioni migliori su un'ampia gamma di modifiche con alta fedeltà e precisione. Eliminando la necessità di set di dati preesistenti di triplette, riducendo i bias associati ai metodi supervisionati e proponendo CEC, il nostro lavoro rappresenta un significativo avanzamento nello sblocco della scalabilità della modifica delle immagini basata sulle istruzioni.
English
We propose an unsupervised model for instruction-based image editing that
eliminates the need for ground-truth edited images during training. Existing
supervised methods depend on datasets containing triplets of input image,
edited image, and edit instruction. These are generated by either existing
editing methods or human-annotations, which introduce biases and limit their
generalization ability. Our method addresses these challenges by introducing a
novel editing mechanism called Cycle Edit Consistency (CEC), which applies
forward and backward edits in one training step and enforces consistency in
image and attention spaces. This allows us to bypass the need for ground-truth
edited images and unlock training for the first time on datasets comprising
either real image-caption pairs or image-caption-edit triplets. We empirically
show that our unsupervised technique performs better across a broader range of
edits with high fidelity and precision. By eliminating the need for
pre-existing datasets of triplets, reducing biases associated with supervised
methods, and proposing CEC, our work represents a significant advancement in
unblocking scaling of instruction-based image editing.Summary
AI-Generated Summary