FluxSpace: Modifica Semantica Disentangled nei Trasformatori di Flusso Raddrizzati
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
December 12, 2024
Autori: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI
Abstract
I modelli di flusso rettificato sono emersi come un approccio dominante nella generazione di immagini, mostrando capacità impressionanti nella sintesi di immagini di alta qualità. Tuttavia, nonostante la loro efficacia nella generazione visiva, i modelli di flusso rettificato spesso faticano con la modifica disentangled delle immagini. Questa limitazione impedisce la capacità di effettuare modifiche precise e specifiche degli attributi senza influenzare aspetti non correlati dell'immagine. In questo articolo, presentiamo FluxSpace, un metodo di editing di immagini domain-agnostic che sfrutta uno spazio di rappresentazione con la capacità di controllare la semantica delle immagini generate dai trasformatori di flusso rettificato, come Flux. Sfruttando le rappresentazioni apprese dai blocchi del trasformatore all'interno dei modelli di flusso rettificato, proponiamo un insieme di rappresentazioni semanticamente interpretabili che consentono una vasta gamma di compiti di editing delle immagini, dall'editing dettagliato delle immagini alla creazione artistica. Questo lavoro offre un approccio di editing delle immagini scalabile ed efficace, insieme alle sue capacità di disentanglement.
English
Rectified flow models have emerged as a dominant approach in image
generation, showcasing impressive capabilities in high-quality image synthesis.
However, despite their effectiveness in visual generation, rectified flow
models often struggle with disentangled editing of images. This limitation
prevents the ability to perform precise, attribute-specific modifications
without affecting unrelated aspects of the image. In this paper, we introduce
FluxSpace, a domain-agnostic image editing method leveraging a representation
space with the ability to control the semantics of images generated by
rectified flow transformers, such as Flux. By leveraging the representations
learned by the transformer blocks within the rectified flow models, we propose
a set of semantically interpretable representations that enable a wide range of
image editing tasks, from fine-grained image editing to artistic creation. This
work offers a scalable and effective image editing approach, along with its
disentanglement capabilities.Summary
AI-Generated Summary