Het ontrafelen van SDXL Turbo: Het interpreteren van tekst-naar-afbeelding modellen met schaarse auto-encoders.

Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders

October 28, 2024
Auteurs: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI

Samenvatting

Schaarse auto-encoders (SAE's) zijn een essentieel onderdeel geworden bij het reverse-engineeren van grote taalmodellen (LLM's). Voor LLM's is aangetoond dat ze tussenliggende representaties kunnen ontbinden die vaak niet direct interpreteerbaar zijn in schaarse sommen van interpreteerbare kenmerken, wat een betere controle en daaropvolgende analyse mogelijk maakt. Echter, soortgelijke analyses en benaderingen ontbreken voor tekst-naar-afbeelding modellen. We hebben onderzocht of het mogelijk is om SAE's te gebruiken om interpreteerbare kenmerken te leren voor enkele-staps tekst-naar-afbeelding diffusiemodellen, zoals SDXL Turbo. Hiervoor trainen we SAE's op de updates uitgevoerd door transformer blokken binnen de denoising U-net van SDXL Turbo. We ontdekken dat hun geleerde kenmerken interpreteerbaar zijn, causaal invloed hebben op het generatieproces, en specialisatie onthullen tussen de blokken. In het bijzonder vinden we één blok dat voornamelijk bezig is met beeldcompositie, één die voornamelijk verantwoordelijk is voor het toevoegen van lokale details, en één voor kleur, belichting en stijl. Daarom is ons werk een belangrijke eerste stap naar een beter begrip van de interne werking van generatieve tekst-naar-afbeelding modellen zoals SDXL Turbo en toont het het potentieel van kenmerken die zijn geleerd door SAE's voor het visuele domein. De code is beschikbaar op https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse engineering of large-language models (LLMs). For LLMs, they have been shown to decompose intermediate representations that often are not interpretable directly into sparse sums of interpretable features, facilitating better control and subsequent analysis. However, similar analyses and approaches have been lacking for text-to-image models. We investigated the possibility of using SAEs to learn interpretable features for a few-step text-to-image diffusion models, such as SDXL Turbo. To this end, we train SAEs on the updates performed by transformer blocks within SDXL Turbo's denoising U-net. We find that their learned features are interpretable, causally influence the generation process, and reveal specialization among the blocks. In particular, we find one block that deals mainly with image composition, one that is mainly responsible for adding local details, and one for color, illumination, and style. Therefore, our work is an important first step towards better understanding the internals of generative text-to-image models like SDXL Turbo and showcases the potential of features learned by SAEs for the visual domain. Code is available at https://github.com/surkovv/sdxl-unbox

Summary

AI-Generated Summary

PDF743November 13, 2024