Tom de Preenchimento: Uma Análise Mecanicista dos Tokens de Preenchimento em Modelos T2I
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models
January 12, 2025
Autores: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI
Resumo
Os modelos de difusão texto-para-imagem (T2I) dependem de prompts codificados para orientar o processo de geração de imagens. Tipicamente, esses prompts são estendidos para um comprimento fixo adicionando tokens de preenchimento antes da codificação do texto. Apesar de ser uma prática padrão, a influência dos tokens de preenchimento no processo de geração de imagens não foi investigada. Neste trabalho, realizamos a primeira análise aprofundada do papel que os tokens de preenchimento desempenham nos modelos T2I. Desenvolvemos duas técnicas causais para analisar como a informação é codificada na representação dos tokens em diferentes componentes do pipeline T2I. Utilizando essas técnicas, investigamos quando e como os tokens de preenchimento impactam o processo de geração de imagens. Nossas descobertas revelam três cenários distintos: os tokens de preenchimento podem afetar a saída do modelo durante a codificação de texto, durante o processo de difusão, ou serem efetivamente ignorados. Além disso, identificamos relações-chave entre esses cenários e a arquitetura do modelo (atenção cruzada ou autoatenção) e seu processo de treinamento (codificador de texto congelado ou treinado). Essas percepções contribuem para uma compreensão mais profunda dos mecanismos dos tokens de preenchimento, potencialmente informando o design de modelos futuros e práticas de treinamento em sistemas T2I.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the
image generation process. Typically, these prompts are extended to a fixed
length by adding padding tokens before text encoding. Despite being a default
practice, the influence of padding tokens on the image generation process has
not been investigated. In this work, we conduct the first in-depth analysis of
the role padding tokens play in T2I models. We develop two causal techniques to
analyze how information is encoded in the representation of tokens across
different components of the T2I pipeline. Using these techniques, we
investigate when and how padding tokens impact the image generation process.
Our findings reveal three distinct scenarios: padding tokens may affect the
model's output during text encoding, during the diffusion process, or be
effectively ignored. Moreover, we identify key relationships between these
scenarios and the model's architecture (cross or self-attention) and its
training process (frozen or trained text encoder). These insights contribute to
a deeper understanding of the mechanisms of padding tokens, potentially
informing future model design and training practices in T2I systems.Summary
AI-Generated Summary