Analisi dettagliata di SDXL Turbo: Interpretazione dei modelli di testo-immagine con autoencoder sparsi
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
Autori: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
Abstract
Gli autoencoder sparsi (SAE) sono diventati un ingrediente fondamentale nel reverse engineering dei grandi modelli di linguaggio (LLM). Per i LLM, è stato dimostrato che decompongono rappresentazioni intermedie spesso non direttamente interpretabili in somme sparse di caratteristiche interpretabili, facilitando un migliore controllo e successiva analisi. Tuttavia, analisi e approcci simili sono mancati per i modelli testo-immagine. Abbiamo investigato la possibilità di utilizzare SAE per apprendere caratteristiche interpretabili per modelli di diffusione testo-immagine a pochi passaggi, come SDXL Turbo. A questo scopo, addestriamo SAE sugli aggiornamenti eseguiti dai blocchi trasformatore all'interno del denoising U-net di SDXL Turbo. Scopriamo che le caratteristiche apprese sono interpretabili, influenzano causalmente il processo di generazione e rivelano specializzazioni tra i blocchi. In particolare, troviamo un blocco che si occupa principalmente della composizione dell'immagine, uno responsabile principalmente dell'aggiunta di dettagli locali e uno per colore, illuminazione e stile. Pertanto, il nostro lavoro è un importante primo passo verso una migliore comprensione degli interni dei modelli generativi testo-immagine come SDXL Turbo e mostra il potenziale delle caratteristiche apprese da SAE per il dominio visivo. Il codice è disponibile su https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary