UIP2P: Edição de Imagens Baseada em Instrução Não Supervisionada via Edição de Ciclo de Consistência
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
December 19, 2024
Autores: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Resumo
Propomos um modelo não supervisionado para edição de imagens baseada em instruções que elimina a necessidade de imagens editadas verdadeiras durante o treinamento. Métodos supervisionados existentes dependem de conjuntos de dados contendo triplas de imagem de entrada, imagem editada e instrução de edição. Estas são geradas por métodos de edição existentes ou por anotações humanas, que introduzem viés e limitam sua capacidade de generalização. Nosso método aborda esses desafios introduzindo um mecanismo de edição inovador chamado Consistência de Edição em Ciclo (CEC), que aplica edições para frente e para trás em uma etapa de treinamento e reforça a consistência nos espaços de imagem e atenção. Isso nos permite contornar a necessidade de imagens editadas verdadeiras e habilitar o treinamento pela primeira vez em conjuntos de dados compostos por pares de imagem-legenda reais ou triplas de imagem-legenda-edição. Demonstramos empiricamente que nossa técnica não supervisionada tem um desempenho melhor em uma ampla gama de edições com alta fidelidade e precisão. Ao eliminar a necessidade de conjuntos de dados pré-existentes de triplas, reduzir os viéses associados aos métodos supervisionados e propor o CEC, nosso trabalho representa um avanço significativo no desbloqueio da escalabilidade da edição de imagens baseada em instruções.
English
We propose an unsupervised model for instruction-based image editing that
eliminates the need for ground-truth edited images during training. Existing
supervised methods depend on datasets containing triplets of input image,
edited image, and edit instruction. These are generated by either existing
editing methods or human-annotations, which introduce biases and limit their
generalization ability. Our method addresses these challenges by introducing a
novel editing mechanism called Cycle Edit Consistency (CEC), which applies
forward and backward edits in one training step and enforces consistency in
image and attention spaces. This allows us to bypass the need for ground-truth
edited images and unlock training for the first time on datasets comprising
either real image-caption pairs or image-caption-edit triplets. We empirically
show that our unsupervised technique performs better across a broader range of
edits with high fidelity and precision. By eliminating the need for
pre-existing datasets of triplets, reducing biases associated with supervised
methods, and proposing CEC, our work represents a significant advancement in
unblocking scaling of instruction-based image editing.Summary
AI-Generated Summary