ChatPaper.aiChatPaper

UIP2P: 사이클 편집 일관성을 통한 비지도 학습 기반 이미지 편집

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
저자: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

초록

저희는 훈련 중에 정답으로 편집된 이미지가 필요 없는 지도 지시 기반 이미지 편집에 대한 비지도 학습 모델을 제안합니다. 기존의 지도 학습 방법은 입력 이미지, 편집된 이미지 및 편집 지시의 세 개의 쌍을 포함하는 데이터셋에 의존합니다. 이러한 데이터는 기존 편집 방법이나 인간 주석에 의해 생성되며 편향을 도입하고 일반화 능력을 제한합니다. 저희 방법은 순환 편집 일관성(Cycle Edit Consistency, CEC)이라는 새로운 편집 메커니즘을 도입하여 이러한 도전에 대처합니다. CEC는 순방향 및 역방향 편집을 한 번의 훈련 단계에서 적용하고 이미지 및 주의 공간에서 일관성을 강제합니다. 이를 통해 정답으로 편집된 이미지가 필요 없어지며, 실제 이미지-캡션 쌍 또는 이미지-캡션-편집 쌍으로 구성된 데이터셋에서 처음으로 훈련을 진행할 수 있게 됩니다. 실험적으로 우리의 비지도 학습 기술이 더 넓은 범위의 편집에 대해 높은 충실도와 정밀도로 더 나은 성능을 발휘함을 보여줍니다. 세 개의 사전 쌍 데이터셋이 필요 없어지고 지도 학습 방법과 관련된 편향을 줄이며 CEC를 제안함으로써, 저희 작업은 지도 지시 기반 이미지 편집의 확장을 더욱 촉진하는 중요한 발전을 나타냅니다.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.
PDF53December 20, 2024