ObjectMate: Una Priorità di Ricorrenza per l'Inserimento di Oggetti e la Generazione Guidata dal Soggetto
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Autori: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Abstract
Questo articolo introduce un metodo senza taratura sia per l'inserimento di oggetti che per la generazione guidata dal soggetto. Il compito consiste nel comporre un oggetto, dato un numero di viste, in una scena specificata da un'immagine o da un testo. I metodi esistenti faticano a soddisfare appieno gli obiettivi impegnativi del compito: (i) comporre in modo fluido l'oggetto nella scena con posa e illuminazione fotorealistici, e (ii) preservare l'identità dell'oggetto. Ipotizziamo che per raggiungere questi obiettivi sia necessaria una supervisione su larga scala, ma raccogliere manualmente dati sufficienti è semplicemente troppo costoso. L'osservazione chiave in questo articolo è che molti oggetti prodotti in serie ricorrono in diverse immagini di grandi set di dati non etichettati, in scene, pose e condizioni di illuminazione diverse. Utilizziamo questa osservazione per creare una supervisione massiccia recuperando insiemi di viste diverse dello stesso oggetto. Questo potente dataset accoppiato ci consente di addestrare un'architettura di diffusione testo-immagine diretta per mappare le descrizioni dell'oggetto e della scena all'immagine composta. Confrontiamo il nostro metodo, ObjectMate, con i metodi all'avanguardia per l'inserimento di oggetti e la generazione guidata dal soggetto, utilizzando uno o più riferimenti. Empiricamente, ObjectMate raggiunge una migliore conservazione dell'identità e una composizione più fotorealistica. A differenza di molti altri metodi multi-riferimento, ObjectMate non richiede una taratura lenta durante il test.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary