Tono di Riempimento: Un'Analisi Meccanicistica dei Token di Riempimento nei Modelli T2I
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models
January 12, 2025
Autori: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI
Abstract
I modelli di diffusione testo-immagine (T2I) si basano su prompt codificati per guidare il processo di generazione dell'immagine. Tipicamente, questi prompt vengono estesi a una lunghezza fissa aggiungendo token di riempimento prima della codifica del testo. Nonostante sia una pratica predefinita, l'influenza dei token di riempimento sul processo di generazione dell'immagine non è stata indagata. In questo lavoro, conduciamo la prima analisi approfondita del ruolo che i token di riempimento svolgono nei modelli T2I. Sviluppiamo due tecniche causali per analizzare come le informazioni sono codificate nella rappresentazione dei token attraverso diversi componenti del processo T2I. Utilizzando queste tecniche, indaghiamo quando e come i token di riempimento influenzano il processo di generazione dell'immagine. Le nostre scoperte rivelano tre scenari distinti: i token di riempimento possono influenzare l'output del modello durante la codifica del testo, durante il processo di diffusione, o essere efficacemente ignorati. Inoltre, identifichiamo le relazioni chiave tra questi scenari e l'architettura del modello (attenzione incrociata o auto-attenzione) e il suo processo di addestramento (codificatore di testo congelato o addestrato). Queste intuizioni contribuiscono a una comprensione più profonda dei meccanismi dei token di riempimento, potenzialmente informando il design dei modelli futuri e le pratiche di addestramento nei sistemi T2I.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the
image generation process. Typically, these prompts are extended to a fixed
length by adding padding tokens before text encoding. Despite being a default
practice, the influence of padding tokens on the image generation process has
not been investigated. In this work, we conduct the first in-depth analysis of
the role padding tokens play in T2I models. We develop two causal techniques to
analyze how information is encoded in the representation of tokens across
different components of the T2I pipeline. Using these techniques, we
investigate when and how padding tokens impact the image generation process.
Our findings reveal three distinct scenarios: padding tokens may affect the
model's output during text encoding, during the diffusion process, or be
effectively ignored. Moreover, we identify key relationships between these
scenarios and the model's architecture (cross or self-attention) and its
training process (frozen or trained text encoder). These insights contribute to
a deeper understanding of the mechanisms of padding tokens, potentially
informing future model design and training practices in T2I systems.Summary
AI-Generated Summary