Тональность заполнения: Механистический анализ заполнительных токенов в моделях текст к изображению
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models
January 12, 2025
Авторы: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI
Аннотация
Модели диффузии текста в изображение (T2I) используют закодированные подсказки для направления процесса генерации изображения. Обычно эти подсказки расширяются до фиксированной длины путем добавления заполнительных токенов перед кодированием текста. Несмотря на то, что это является стандартной практикой, влияние заполнительных токенов на процесс генерации изображения не было исследовано. В данной работе мы проводим первый глубокий анализ роли заполнительных токенов в моделях T2I. Мы разрабатываем две причинные техники для анализа того, как информация кодируется в представлении токенов по различным компонентам конвейера T2I. Используя эти техники, мы исследуем, когда и как заполнительные токены влияют на процесс генерации изображения. Наши результаты раскрывают три различных сценария: заполнительные токены могут влиять на вывод модели во время кодирования текста, во время процесса диффузии или быть эффективно проигнорированы. Более того, мы выявляем ключевые взаимосвязи между этими сценариями и архитектурой модели (перекрестное или самовнимание) и ее процессом обучения (замороженный или обученный текстовый кодировщик). Эти умозаключения способствуют более глубокому пониманию механизмов заполнительных токенов, что потенциально может информировать о будущем проектировании моделей и практиках обучения в системах T2I.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the
image generation process. Typically, these prompts are extended to a fixed
length by adding padding tokens before text encoding. Despite being a default
practice, the influence of padding tokens on the image generation process has
not been investigated. In this work, we conduct the first in-depth analysis of
the role padding tokens play in T2I models. We develop two causal techniques to
analyze how information is encoded in the representation of tokens across
different components of the T2I pipeline. Using these techniques, we
investigate when and how padding tokens impact the image generation process.
Our findings reveal three distinct scenarios: padding tokens may affect the
model's output during text encoding, during the diffusion process, or be
effectively ignored. Moreover, we identify key relationships between these
scenarios and the model's architecture (cross or self-attention) and its
training process (frozen or trained text encoder). These insights contribute to
a deeper understanding of the mechanisms of padding tokens, potentially
informing future model design and training practices in T2I systems.Summary
AI-Generated Summary