パディングトーン:T2Iモデルにおけるパディングトークンの機構的分析

Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

January 12, 2025
著者: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI

要旨

画像生成(T2I)拡散モデルは、エンコードされたプロンプトに依存して画像生成プロセスをガイドします。通常、これらのプロンプトは、テキストエンコードの前にパディングトークンを追加して固定の長さに拡張されます。デフォルトの慣行であるにもかかわらず、パディングトークンが画像生成プロセスに与える影響は調査されていませんでした。本研究では、T2Iモデルにおけるパディングトークンの役割について初めて詳細な分析を行います。私たちは、情報がどのようにエンコードされるかを分析するための2つの因果関係技術を開発し、T2Iパイプラインの異なるコンポーネント間でトークンの表現がどのように影響するかを調査します。これらの技術を使用して、いつ、どのようにしてパディングトークンが画像生成プロセスに影響を与えるかを調査します。私たちの調査結果は、3つの異なるシナリオを明らかにします:パディングトークンは、テキストエンコード中、拡散プロセス中、または効果的に無視される可能性があります。さらに、これらのシナリオとモデルのアーキテクチャ(クロスまたはセルフアテンション)およびトレーニングプロセス(凍結またはトレーニングされたテキストエンコーダー)との重要な関係を特定します。これらの知見は、パディングトークンのメカニズムについてのより深い理解に貢献し、T2Iシステムにおける将来のモデル設計とトレーニング手法に影響を与える可能性があります。
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the image generation process. Typically, these prompts are extended to a fixed length by adding padding tokens before text encoding. Despite being a default practice, the influence of padding tokens on the image generation process has not been investigated. In this work, we conduct the first in-depth analysis of the role padding tokens play in T2I models. We develop two causal techniques to analyze how information is encoded in the representation of tokens across different components of the T2I pipeline. Using these techniques, we investigate when and how padding tokens impact the image generation process. Our findings reveal three distinct scenarios: padding tokens may affect the model's output during text encoding, during the diffusion process, or be effectively ignored. Moreover, we identify key relationships between these scenarios and the model's architecture (cross or self-attention) and its training process (frozen or trained text encoder). These insights contribute to a deeper understanding of the mechanisms of padding tokens, potentially informing future model design and training practices in T2I systems.

Summary

AI-Generated Summary

PDF312January 15, 2025