ChatPaper.aiChatPaper

Click2Mask: 동적 마스크 생성을 이용한 로컬 편집

Click2Mask: Local Editing with Dynamic Mask Generation

September 12, 2024
저자: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI

초록

최근 생성 모델의 발전은 이미지 생성 및 편집을 혁신적으로 바꿔놓았으며, 이러한 작업들을 비전문가에게 접근 가능하게 만들었습니다. 본 논문은 로컬 이미지 편집에 초점을 맞추며, 특히 느슨하게 지정된 영역에 새로운 콘텐츠를 추가하는 작업에 대해 다룹니다. 기존 방법들은 종종 정확한 마스크나 위치에 대한 상세한 설명을 요구하는데, 이는 번거롭고 오류를 유발할 수 있습니다. 본 연구에서는 Click2Mask를 제안하는데, 이는 로컬 편집 과정을 단일 참조점만 필요로 하도록 단순화하는 혁신적인 방법입니다 (콘텐츠 설명에 추가로). 마스크는 Blended Latent Diffusion (BLD) 과정 중에 이 참조점 주변에서 동적으로 확장되며, 마스크된 CLIP 기반 의미 손실에 의해 안내됩니다. Click2Mask는 세분화 기반 및 미세 조정에 의존하는 방법들의 제약을 뛰어넘으며, 더 사용자 친화적이고 맥락에 맞는 정확한 해결책을 제공합니다. 실험 결과는 Click2Mask가 사용자의 노력을 최소화할 뿐만 아니라, SoTA 방법들과 비교했을 때 인간 판단 및 자동 측정에 따라 경쟁력 있는 또는 우수한 로컬 이미지 조작 결과를 제공함을 입증합니다. 주요 기여로는 사용자 입력의 단순화, 기존 세그먼트에 제약받지 않고 자유롭게 객체를 추가할 수 있는 능력, 그리고 우리의 동적 마스크 접근법을 다른 편집 방법 내에서 통합할 수 있는 잠재력이 있습니다.
English
Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.

Summary

AI-Generated Summary

PDF63November 16, 2024