Add-it : Insertion d'objets sans entraînement dans les images avec des modèles de diffusion pré-entraînés
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
November 11, 2024
Auteurs: Yoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik
cs.AI
Résumé
Intégrer des objets dans des images en se basant sur des instructions textuelles est une tâche complexe en édition d'images sémantique, nécessitant un équilibre entre la préservation de la scène originale et l'intégration harmonieuse du nouvel objet à un emplacement approprié. Malgré des efforts considérables, les modèles existants ont souvent du mal à trouver cet équilibre, en particulier pour trouver un emplacement naturel pour ajouter un objet dans des scènes complexes. Nous présentons Add-it, une approche sans entraînement qui étend les mécanismes d'attention des modèles de diffusion pour incorporer des informations provenant de trois sources clés : l'image de la scène, l'indication textuelle et l'image générée elle-même. Notre mécanisme d'attention étendu pondéré maintient la cohérence structurelle et les détails fins tout en garantissant un placement naturel de l'objet. Sans un accordage fin spécifique à la tâche, Add-it obtient des résultats de pointe à la fois sur des benchmarks d'insertion d'images réelles et générées, y compris notre nouveau "Banc d'essai d'ajout d'objets" pour évaluer la plausibilité du placement des objets, surpassant les méthodes supervisées. Les évaluations humaines montrent qu'Add-it est préféré dans plus de 80 % des cas, et il démontre également des améliorations dans diverses mesures automatisées.
English
Adding Object into images based on text instructions is a challenging task in
semantic image editing, requiring a balance between preserving the original
scene and seamlessly integrating the new object in a fitting location. Despite
extensive efforts, existing models often struggle with this balance,
particularly with finding a natural location for adding an object in complex
scenes. We introduce Add-it, a training-free approach that extends diffusion
models' attention mechanisms to incorporate information from three key sources:
the scene image, the text prompt, and the generated image itself. Our weighted
extended-attention mechanism maintains structural consistency and fine details
while ensuring natural object placement. Without task-specific fine-tuning,
Add-it achieves state-of-the-art results on both real and generated image
insertion benchmarks, including our newly constructed "Additing Affordance
Benchmark" for evaluating object placement plausibility, outperforming
supervised methods. Human evaluations show that Add-it is preferred in over 80%
of cases, and it also demonstrates improvements in various automated metrics.Summary
AI-Generated Summary