Entpacken von SDXL Turbo: Interpretation von Text-zu-Bild-Modellen mit spärlichen Autoencodern
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
Autoren: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
Zusammenfassung
Sparse Autoencoder (SAE) sind zu einem Kernbestandteil bei der Rückentwicklung großer Sprachmodelle (LLMs) geworden. Bei LLMs wurde gezeigt, dass sie Zwischenrepräsentationen, die oft nicht direkt interpretierbar sind, in spärliche Summen interpretierbarer Merkmale zerlegen, was eine bessere Steuerung und nachfolgende Analyse ermöglicht. Allerdings fehlen ähnliche Analysen und Ansätze für Text-zu-Bild-Modelle. Wir haben die Möglichkeit untersucht, SAEs zu verwenden, um interpretierbare Merkmale für Text-zu-Bild-Diffusionsmodelle mit wenigen Schritten zu erlernen, wie z.B. SDXL Turbo. Zu diesem Zweck trainieren wir SAEs anhand der Aktualisierungen, die von Transformer-Blöcken innerhalb des denoising U-Net von SDXL Turbo durchgeführt werden. Wir stellen fest, dass ihre erlernten Merkmale interpretierbar sind, den Generierungsprozess kausal beeinflussen und Spezialisierung unter den Blöcken aufzeigen. Insbesondere finden wir einen Block, der hauptsächlich mit der Bildkomposition umgeht, einen, der hauptsächlich für das Hinzufügen lokaler Details verantwortlich ist, und einen für Farbe, Beleuchtung und Stil. Daher ist unsere Arbeit ein wichtiger erster Schritt hin zum besseren Verständnis der internen Strukturen generativer Text-zu-Bild-Modelle wie SDXL Turbo und zeigt das Potenzial der von SAEs im visuellen Bereich erlernten Merkmale auf.
Der Code ist verfügbar unter https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary