Auto-Distillazione per Diffusione per la Generazione Personalizzata di Immagini Zero-Shot

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

November 27, 2024
Autori: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
cs.AI

Abstract

I modelli di diffusione testo-immagine producono risultati impressionanti ma sono strumenti frustranti per gli artisti che desiderano un controllo dettagliato. Ad esempio, un caso d'uso comune è creare immagini di un'istanza specifica in contesti nuovi, ovvero "generazione preservante l'identità". Questa impostazione, insieme a molte altre attività (ad esempio, il rilievo della luce), si adatta naturalmente ai modelli generativi condizionati immagine+testo. Tuttavia, non esistono dati accoppiati di alta qualità sufficienti per addestrare direttamente un tale modello. Proponiamo l'Auto-Distillazione per Diffusione, un metodo per utilizzare un modello preaddestrato testo-immagine per generare il proprio dataset per compiti immagine-immagine condizionati dal testo. Prima sfruttiamo la capacità di generazione in contesto di un modello di diffusione testo-immagine per creare griglie di immagini e curare un ampio dataset accoppiato con l'aiuto di un Modello Visivo-Linguistico. Successivamente, perfezioniamo il modello testo-immagine in un modello testo+immagine-immagine utilizzando il dataset accoppiato curato. Dimostriamo che l'Auto-Distillazione per Diffusione supera i metodi zero-shot esistenti ed è competitiva con le tecniche di taratura per istanza su una vasta gamma di compiti di generazione preservante l'identità, senza richiedere ottimizzazioni al momento del test.
English
Text-to-image diffusion models produce impressive results but are frustrating tools for artists who desire fine-grained control. For example, a common use case is to create images of a specific instance in novel contexts, i.e., "identity-preserving generation". This setting, along with many other tasks (e.g., relighting), is a natural fit for image+text-conditional generative models. However, there is insufficient high-quality paired data to train such a model directly. We propose Diffusion Self-Distillation, a method for using a pre-trained text-to-image model to generate its own dataset for text-conditioned image-to-image tasks. We first leverage a text-to-image diffusion model's in-context generation ability to create grids of images and curate a large paired dataset with the help of a Visual-Language Model. We then fine-tune the text-to-image model into a text+image-to-image model using the curated paired dataset. We demonstrate that Diffusion Self-Distillation outperforms existing zero-shot methods and is competitive with per-instance tuning techniques on a wide range of identity-preservation generation tasks, without requiring test-time optimization.

Summary

AI-Generated Summary

PDF156November 28, 2024