Analyse de SDXL Turbo : Interprétation des modèles texte-image avec des autoencodeurs épars
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders
October 28, 2024
Auteurs: Viacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre
cs.AI
Résumé
Les autoencodeurs parcimonieux (SAEs) sont devenus un ingrédient essentiel dans l'ingénierie inverse des grands modèles de langage (LLMs). Pour les LLMs, ils ont été démontrés pour décomposer des représentations intermédiaires souvent non interprétables directement en sommes parcimonieuses de caractéristiques interprétables, facilitant un meilleur contrôle et une analyse ultérieure. Cependant, des analyses et approches similaires ont fait défaut pour les modèles texte-image. Nous avons étudié la possibilité d'utiliser des SAEs pour apprendre des caractéristiques interprétables pour des modèles de diffusion texte-image à quelques étapes, tels que SDXL Turbo. À cette fin, nous entraînons des SAEs sur les mises à jour effectuées par les blocs transformateurs au sein du U-net de débruitage de SDXL Turbo. Nous constatons que leurs caractéristiques apprises sont interprétables, influencent de manière causale le processus de génération et révèlent une spécialisation parmi les blocs. En particulier, nous identifions un bloc qui traite principalement de la composition d'image, un autre responsable principalement de l'ajout de détails locaux, et un autre pour la couleur, l'illumination et le style. Par conséquent, notre travail est une première étape importante vers une meilleure compréhension des aspects internes des modèles génératifs texte-image tels que SDXL Turbo et met en valeur le potentiel des caractéristiques apprises par les SAEs pour le domaine visuel.
Le code est disponible sur https://github.com/surkovv/sdxl-unbox
English
Sparse autoencoders (SAEs) have become a core ingredient in the reverse
engineering of large-language models (LLMs). For LLMs, they have been shown to
decompose intermediate representations that often are not interpretable
directly into sparse sums of interpretable features, facilitating better
control and subsequent analysis. However, similar analyses and approaches have
been lacking for text-to-image models. We investigated the possibility of using
SAEs to learn interpretable features for a few-step text-to-image diffusion
models, such as SDXL Turbo. To this end, we train SAEs on the updates performed
by transformer blocks within SDXL Turbo's denoising U-net. We find that their
learned features are interpretable, causally influence the generation process,
and reveal specialization among the blocks. In particular, we find one block
that deals mainly with image composition, one that is mainly responsible for
adding local details, and one for color, illumination, and style. Therefore,
our work is an important first step towards better understanding the internals
of generative text-to-image models like SDXL Turbo and showcases the potential
of features learned by SAEs for the visual domain.
Code is available at https://github.com/surkovv/sdxl-unboxSummary
AI-Generated Summary