Add-it: 사전 훈련된 확산 모델을 사용한 이미지 내 물체 삽입 방법

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

November 11, 2024
저자: Yoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik
cs.AI

초록

텍스트 지침에 따라 이미지에 객체를 추가하는 것은 시맨틱 이미지 편집에서의 어려운 과제로, 원본 장면을 보존하고 새로운 객체를 적절한 위치에 매끄럽게 통합하는 균형을 요구합니다. 기존 모델은 이 균형을 달성하는 데 어려움을 겪는데, 특히 복잡한 장면에 객체를 추가하는 자연스러운 위치를 찾는 데 어려움을 겪습니다. 저희는 Add-it이라는 훈련 불필요한 방법을 소개합니다. 이 방법은 확산 모델의 주의 메커니즘을 확장하여 장면 이미지, 텍스트 프롬프트, 생성된 이미지 자체의 정보를 통합합니다. 가중치가 부여된 확장된 주의 메커니즘은 구조적 일관성과 세부 사항을 유지하면서 자연스러운 객체 배치를 보장합니다. 과제별 세부 조정 없이 Add-it은 실제 및 생성된 이미지 삽입 벤치마크에서 최첨단 결과를 달성하며, 객체 배치 타당성을 평가하기 위해 새롭게 구성된 "Additing Affordance Benchmark"를 포함하여 지도 방법을 능가합니다. 인간 평가 결과, Add-it이 80% 이상의 경우 선호되며, 다양한 자동화된 측정 항목에서도 개선을 보입니다.
English
Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models' attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed "Additing Affordance Benchmark" for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.

Summary

AI-Generated Summary

PDF604November 12, 2024