Polsterungston: Eine mechanistische Analyse von Polsterungstoken in T2I-Modellen
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models
January 12, 2025
Autoren: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI
Zusammenfassung
Text-zu-Bild (T2I) Diffusionsmodelle verlassen sich auf codierte Anweisungen, um den Bildgenerierungsprozess zu lenken. Typischerweise werden diese Anweisungen durch das Hinzufügen von Fülltokens vor der Textcodierung auf eine feste Länge erweitert. Obwohl dies eine Standardpraxis ist, wurde der Einfluss von Fülltokens auf den Bildgenerierungsprozess bisher nicht untersucht. In dieser Arbeit führen wir die erste eingehende Analyse der Rolle von Fülltokens in T2I-Modellen durch. Wir entwickeln zwei kausale Techniken, um zu analysieren, wie Informationen in der Repräsentation von Tokens über verschiedene Komponenten des T2I-Pipelines codiert werden. Unter Verwendung dieser Techniken untersuchen wir, wann und wie Fülltokens den Bildgenerierungsprozess beeinflussen. Unsere Ergebnisse zeigen drei unterschiedliche Szenarien auf: Fülltokens können die Ausgabe des Modells während der Textcodierung, während des Diffusionsprozesses oder effektiv ignorieren. Darüber hinaus identifizieren wir wichtige Beziehungen zwischen diesen Szenarien und der Architektur des Modells (Kreuz- oder Selbst-Aufmerksamkeit) und seinem Schulungsprozess (gefrorener oder trainierter Textcodierer). Diese Erkenntnisse tragen zu einem tieferen Verständnis der Mechanismen von Fülltokens bei und können zukünftige Modellentwürfe und Schulungspraktiken in T2I-Systemen beeinflussen.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the
image generation process. Typically, these prompts are extended to a fixed
length by adding padding tokens before text encoding. Despite being a default
practice, the influence of padding tokens on the image generation process has
not been investigated. In this work, we conduct the first in-depth analysis of
the role padding tokens play in T2I models. We develop two causal techniques to
analyze how information is encoded in the representation of tokens across
different components of the T2I pipeline. Using these techniques, we
investigate when and how padding tokens impact the image generation process.
Our findings reveal three distinct scenarios: padding tokens may affect the
model's output during text encoding, during the diffusion process, or be
effectively ignored. Moreover, we identify key relationships between these
scenarios and the model's architecture (cross or self-attention) and its
training process (frozen or trained text encoder). These insights contribute to
a deeper understanding of the mechanisms of padding tokens, potentially
informing future model design and training practices in T2I systems.Summary
AI-Generated Summary