DreamCache: Generazione leggera e personalizzata di immagini senza sintonizzazione tramite caching delle caratteristiche
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
November 26, 2024
Autori: Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
cs.AI
Abstract
La generazione di immagini personalizzate richiede modelli generativi testo-immagine in grado di catturare le caratteristiche principali di un soggetto di riferimento per consentire una generazione controllata in contesti diversi. I metodi esistenti affrontano sfide dovute a requisiti complessi di addestramento, costi elevati di inferenza, limitata flessibilità o una combinazione di questi problemi. In questo articolo, presentiamo DreamCache, un approccio scalabile per una generazione efficiente e di alta qualità di immagini personalizzate. Tramite la memorizzazione nella cache di un numero limitato di caratteristiche dell'immagine di riferimento da un sottoinsieme di strati e un singolo passaggio del denoiser di diffusione preaddestruito, DreamCache consente la modulazione dinamica delle caratteristiche dell'immagine generata attraverso adattatori di condizionamento leggeri e addestrati. DreamCache raggiunge un allineamento di immagini e testo all'avanguardia, utilizzando un ordine di grandezza inferiore di parametri extra e risulta sia più efficiente computazionalmente che versatile rispetto ai modelli esistenti.
English
Personalized image generation requires text-to-image generative models that
capture the core features of a reference subject to allow for controlled
generation across different contexts. Existing methods face challenges due to
complex training requirements, high inference costs, limited flexibility, or a
combination of these issues. In this paper, we introduce DreamCache, a scalable
approach for efficient and high-quality personalized image generation. By
caching a small number of reference image features from a subset of layers and
a single timestep of the pretrained diffusion denoiser, DreamCache enables
dynamic modulation of the generated image features through lightweight, trained
conditioning adapters. DreamCache achieves state-of-the-art image and text
alignment, utilizing an order of magnitude fewer extra parameters, and is both
more computationally effective and versatile than existing models.Summary
AI-Generated Summary