ObjectMate: 객체 삽입 및 주체 주도 생성을 위한 재발 사전
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
저자: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
초록
본 논문은 객체 삽입 및 주체 주도 생성을 위한 조정 필요 없는 방법을 소개합니다. 이 작업은 여러 시점에서 제공된 객체를 이미지 또는 텍스트로 지정된 장면에 구성하는 것을 포함합니다. 기존 방법은 작업의 도전적인 목표를 완전히 충족시키기 어렵습니다: (i) 객체를 사실적인 자세와 조명으로 장면에 무결하게 통합하는 것, 그리고 (ii) 객체의 정체성을 보존하는 것입니다. 이러한 목표를 달성하기 위해서는 대규모 감독이 필요하다고 가정하지만, 충분한 데이터를 수동으로 수집하는 것은 단순히 너무 비싸다고 판단합니다. 본 논문의 주요 관찰은 대량 생산된 객체가 대규모 미지도 데이터셋의 여러 이미지에서 반복되어 나타나며, 다양한 장면, 자세 및 조명 조건에서 관찰된다는 것입니다. 이 관찰을 활용하여 동일한 객체의 다양한 시점 집합을 검색하여 대규모 감독을 생성합니다. 이 강력한 쌍 데이터셋을 사용하여 객체 및 장면 설명을 합성된 이미지로 매핑하는 간단한 텍스트-이미지 확산 아키텍처를 훈련할 수 있습니다. 우리는 ObjectMate라는 방법을 단일 또는 다중 참조를 사용하여 객체 삽입 및 주체 주도 생성에 대한 최첨단 방법과 비교합니다. 경험적으로, ObjectMate는 우수한 정체성 보존과 더 사실적인 구성을 달성합니다. 다른 다중 참조 방법과는 달리, ObjectMate는 느린 테스트 시 조정이 필요하지 않습니다.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.