ChatPaper.aiChatPaper

마스크 인식 이중 확산을 통한 가용성 인식 객체 삽입

Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

December 19, 2024
저자: Jixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister
cs.AI

초록

일반적인 이미지 편집 작업 중 하나인 이미지 합성은 전경 객체를 배경 장면에 통합하는 것을 포함합니다. 본 논문에서는 인간 중심 이미지 합성 작업에서 개념적으로 Affordance를 확장하여 보다 일반적인 객체-장면 합성 프레임워크로 확장하며, 전경 객체와 배경 장면 간의 복잡한 상호 작용을 다룹니다. Affordance의 원칙을 따라, 우리는 affordance를 고려한 객체 삽입 작업을 정의합니다. 이 작업은 다양한 위치 프롬프트로 어떤 객체든 어떤 장면에 매끄럽게 삽입하는 것을 목표로 합니다. 제한된 데이터 문제를 해결하고 이 작업을 통합하기 위해 SAM-FB 데이터셋을 구축했습니다. 이 데이터셋은 3,000개 이상의 객체 범주를 포함한 3백만 개 이상의 예제를 담고 있습니다. 더 나아가, 우리는 Mask-Aware Dual Diffusion (MADD) 모델을 제안합니다. 이 모델은 이중 스트림 아키텍처를 활용하여 RGB 이미지와 삽입 마스크를 동시에 제거합니다. 확산 프로세스에서 삽입 마스크를 명시적으로 모델링함으로써, MADD는 affordance 개념을 효과적으로 촉진합니다. 방대한 실험 결과는 우리의 방법이 최첨단 방법을 능가하고 야외 이미지에 대해 강력한 일반화 성능을 나타낸다는 것을 보여줍니다. https://github.com/KaKituken/affordance-aware-any에서 코드를 참조해주시기 바랍니다.
English
As a common image editing operation, image composition involves integrating foreground objects into background scenes. In this paper, we expand the application of the concept of Affordance from human-centered image composition tasks to a more general object-scene composition framework, addressing the complex interplay between foreground objects and background scenes. Following the principle of Affordance, we define the affordance-aware object insertion task, which aims to seamlessly insert any object into any scene with various position prompts. To address the limited data issue and incorporate this task, we constructed the SAM-FB dataset, which contains over 3 million examples across more than 3,000 object categories. Furthermore, we propose the Mask-Aware Dual Diffusion (MADD) model, which utilizes a dual-stream architecture to simultaneously denoise the RGB image and the insertion mask. By explicitly modeling the insertion mask in the diffusion process, MADD effectively facilitates the notion of affordance. Extensive experimental results show that our method outperforms the state-of-the-art methods and exhibits strong generalization performance on in-the-wild images. Please refer to our code on https://github.com/KaKituken/affordance-aware-any.
PDF152December 20, 2024