UIP2P: Edição de Imagens Baseada em Instrução Não Supervisionada via Edição de Ciclo de Consistência

Resumo

Propomos um modelo não supervisionado para edição de imagens baseada em instruções que elimina a necessidade de imagens editadas verdadeiras durante o treinamento. Métodos supervisionados existentes dependem de conjuntos de dados contendo triplas de imagem de entrada, imagem editada e instrução de edição. Estas são geradas por métodos de edição existentes ou por anotações humanas, que introduzem viés e limitam sua capacidade de generalização. Nosso método aborda esses desafios introduzindo um mecanismo de edição inovador chamado Consistência de Edição em Ciclo (CEC), que aplica edições para frente e para trás em uma etapa de treinamento e reforça a consistência nos espaços de imagem e atenção. Isso nos permite contornar a necessidade de imagens editadas verdadeiras e habilitar o treinamento pela primeira vez em conjuntos de dados compostos por pares de imagem-legenda reais ou triplas de imagem-legenda-edição. Demonstramos empiricamente que nossa técnica não supervisionada tem um desempenho melhor em uma ampla gama de edições com alta fidelidade e precisão. Ao eliminar a necessidade de conjuntos de dados pré-existentes de triplas, reduzir os viéses associados aos métodos supervisionados e propor o CEC, nosso trabalho representa um avanço significativo no desbloqueio da escalabilidade da edição de imagens baseada em instruções.

English

We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.

UIP2P: Edição de Imagens Baseada em Instrução Não Supervisionada via Edição de Ciclo de Consistência

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

Resumo

Summary

Support