ChatPaper.aiChatPaper

패딩 톤: T2I 모델에서의 패딩 토큰에 대한 메커니즘 분석

Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

January 12, 2025
저자: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI

초록

텍스트-이미지 (T2I) 확산 모델은 이미지 생성 과정을 안내하기 위해 인코딩된 프롬프트에 의존합니다. 일반적으로 이러한 프롬프트는 텍스트 인코딩 전에 패딩 토큰을 추가하여 고정된 길이로 확장됩니다. 이는 기본적인 관행이지만, 패딩 토큰이 이미지 생성 과정에 미치는 영향은 조사되지 않았습니다. 본 연구에서는 T2I 모델에서 패딩 토큰이 하는 역할에 대해 첫 번째 철저한 분석을 수행합니다. 우리는 정보가 어떻게 토큰의 표현에 인코딩되는지 분석하기 위해 두 가지 인과 기법을 개발했습니다. 이러한 기술을 사용하여 패딩 토큰이 이미지 생성 과정에 어떻게 영향을 미치는지 조사합니다. 우리의 연구 결과는 세 가지 다른 시나리오를 밝혀냅니다: 패딩 토큰은 텍스트 인코딩 중에 모델의 출력에 영향을 줄 수 있으며, 확산 과정 중에 영향을 줄 수도 있고, 효과적으로 무시될 수도 있습니다. 더불어, 이러한 시나리오와 모델의 아키텍처 (교차 또는 자기 주의) 및 훈련 과정 (동결된 또는 훈련된 텍스트 인코더) 사이의 주요 관계를 확인합니다. 이러한 통찰력은 패딩 토큰의 메커니즘에 대한 보다 심층적인 이해에 기여하여, 향후 T2I 시스템에서 모델 설계 및 훈련 방법에 영향을 줄 수 있습니다.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the image generation process. Typically, these prompts are extended to a fixed length by adding padding tokens before text encoding. Despite being a default practice, the influence of padding tokens on the image generation process has not been investigated. In this work, we conduct the first in-depth analysis of the role padding tokens play in T2I models. We develop two causal techniques to analyze how information is encoded in the representation of tokens across different components of the T2I pipeline. Using these techniques, we investigate when and how padding tokens impact the image generation process. Our findings reveal three distinct scenarios: padding tokens may affect the model's output during text encoding, during the diffusion process, or be effectively ignored. Moreover, we identify key relationships between these scenarios and the model's architecture (cross or self-attention) and its training process (frozen or trained text encoder). These insights contribute to a deeper understanding of the mechanisms of padding tokens, potentially informing future model design and training practices in T2I systems.

Summary

AI-Generated Summary

PDF312January 15, 2025