Modelli di flusso rettificato per il controllo della generazione di immagini nel campo vettoriale.

Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

November 27, 2024
Autori: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI

Abstract

I modelli di diffusione (DM) eccellono nel fotorealismo, nell'editing delle immagini e nella risoluzione di problemi inversi, supportati dalla guida senza classificatori e dalle tecniche di inversione delle immagini. Tuttavia, i modelli di flusso rettificato (RFM) rimangono poco esplorati per questi compiti. I metodi esistenti basati su DM spesso richiedono addestramenti aggiuntivi, mancano di generalizzazione ai modelli latenti preaddestrati, hanno prestazioni inferiori e richiedono risorse computazionali significative a causa dell'ampia retropropagazione attraverso risolutori ODE e processi di inversione. In questo lavoro, sviluppiamo innanzitutto una comprensione teorica ed empirica della dinamica del campo vettoriale dei RFM nel guidare in modo efficiente la traiettoria di denoising. Le nostre scoperte rivelano che possiamo navigare il campo vettoriale in modo deterministico e privo di gradienti. Sfruttando questa proprietà, proponiamo FlowChef, che sfrutta il campo vettoriale per guidare la traiettoria di denoising per compiti controllati di generazione di immagini, facilitati dallo skipping del gradiente. FlowChef è un framework unificato per la generazione di immagini controllata che, per la prima volta, affronta simultaneamente la guida del classificatore, i problemi inversi lineari e l'editing delle immagini senza la necessità di addestramenti aggiuntivi, inversioni o retropropagazioni intensive. Infine, effettuiamo valutazioni approfondite e mostriamo che FlowChef supera significativamente i baselines in termini di prestazioni, memoria e requisiti temporali, raggiungendo nuovi risultati di stato dell'arte. Pagina del Progetto: https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving inverse problems, aided by classifier-free guidance and image inversion techniques. However, rectified flow models (RFMs) remain underexplored for these tasks. Existing DM-based methods often require additional training, lack generalization to pretrained latent models, underperform, and demand significant computational resources due to extensive backpropagation through ODE solvers and inversion processes. In this work, we first develop a theoretical and empirical understanding of the vector field dynamics of RFMs in efficiently guiding the denoising trajectory. Our findings reveal that we can navigate the vector field in a deterministic and gradient-free manner. Utilizing this property, we propose FlowChef, which leverages the vector field to steer the denoising trajectory for controlled image generation tasks, facilitated by gradient skipping. FlowChef is a unified framework for controlled image generation that, for the first time, simultaneously addresses classifier guidance, linear inverse problems, and image editing without the need for extra training, inversion, or intensive backpropagation. Finally, we perform extensive evaluations and show that FlowChef significantly outperforms baselines in terms of performance, memory, and time requirements, achieving new state-of-the-art results. Project Page: https://flowchef.github.io.

Summary

AI-Generated Summary

PDF168December 3, 2024