Modello di generazione di immagini su larga scala con inpainting è un generatore di immagini guidato dal soggetto a zero shot.

Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

November 23, 2024
Autori: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI

Abstract

La generazione di immagini guidata dal soggetto mira a produrre immagini di un nuovo soggetto all'interno di un contesto desiderato catturando accuratamente sia le caratteristiche visive del soggetto che il contenuto semantico di un prompt di testo. I metodi tradizionali si basano sull'ottimizzazione fine, che richiede tempo e risorse, per l'allineamento del soggetto, mentre gli approcci recenti zero-shot sfruttano la generazione di immagini al volo, spesso sacrificando l'allineamento del soggetto. In questo articolo, presentiamo Diptych Prompting, un nuovo approccio zero-shot che interpreta il compito come un'operazione di inpainting con preciso allineamento del soggetto sfruttando la proprietà emergente della generazione di diptici nei modelli di generazione di testo-immagine su larga scala. Diptych Prompting dispone un diptico incompleto con l'immagine di riferimento nel pannello sinistro e esegue l'inpainting condizionato al testo nel pannello destro. Inoltre, evitiamo la fuoriuscita di contenuti indesiderati rimuovendo lo sfondo nell'immagine di riferimento e miglioriamo i dettagli fini nel soggetto generato potenziando i pesi di attenzione tra i pannelli durante l'inpainting. I risultati sperimentali confermano che il nostro approccio supera significativamente i metodi di generazione di immagini zero-shot, producendo immagini preferite visivamente dagli utenti. Inoltre, il nostro metodo supporta non solo la generazione guidata dal soggetto, ma anche la generazione di immagini stilizzate e la modifica di immagini guidata dal soggetto, dimostrando versatilità in diverse applicazioni di generazione di immagini. Pagina del progetto: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new subject within a desired context by accurately capturing both the visual characteristics of the subject and the semantic content of a text prompt. Traditional methods rely on time- and resource-intensive fine-tuning for subject alignment, while recent zero-shot approaches leverage on-the-fly image prompting, often sacrificing subject alignment. In this paper, we introduce Diptych Prompting, a novel zero-shot approach that reinterprets as an inpainting task with precise subject alignment by leveraging the emergent property of diptych generation in large-scale text-to-image models. Diptych Prompting arranges an incomplete diptych with the reference image in the left panel, and performs text-conditioned inpainting on the right panel. We further prevent unwanted content leakage by removing the background in the reference image and improve fine-grained details in the generated subject by enhancing attention weights between the panels during inpainting. Experimental results confirm that our approach significantly outperforms zero-shot image prompting methods, resulting in images that are visually preferred by users. Additionally, our method supports not only subject-driven generation but also stylized image generation and subject-driven image editing, demonstrating versatility across diverse image generation applications. Project page: https://diptychprompting.github.io/

Summary

AI-Generated Summary

PDF332November 26, 2024