FiTv2: Schaalbare en Verbeterde Flexibele Vision Transformer voor Diffusie Model

FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

October 17, 2024
Auteurs: ZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai
cs.AI

Samenvatting

De natuur is oneindig resolutievrij. In de context van deze realiteit ondervinden bestaande diffusiemodellen, zoals Diffusion Transformers, vaak uitdagingen bij het verwerken van beeldresoluties buiten hun getrainde domein. Om deze beperking aan te pakken, conceptualiseren we afbeeldingen als sequenties van tokens met dynamische groottes, in plaats van traditionele methoden die afbeeldingen waarnemen als roosters met een vaste resolutie. Deze benadering maakt een flexibele trainingsstrategie mogelijk die naadloos verschillende beeldverhoudingen tijdens zowel training als inferentie kan accommoderen, waardoor resolutiegeneralisatie wordt bevorderd en vooroordelen geïntroduceerd door beelduitsnijding worden geëlimineerd. Op basis hiervan presenteren we de Flexible Vision Transformer (FiT), een transformer-architectuur die specifiek is ontworpen voor het genereren van afbeeldingen met onbeperkte resoluties en beeldverhoudingen. We upgraden de FiT verder naar FiTv2 met verschillende innovatieve ontwerpen, waaronder de Query-Key vector normalisatie, de AdaLN-LoRA module, een rechtgetrokken stroomschema, en een Logit-Normal sampler. Versterkt door een zorgvuldig aangepaste netwerkstructuur, vertoont FiTv2 een convergentiesnelheid die 2 keer hoger is dan die van FiT. Bij het incorporeren van geavanceerde trainingvrije extrapolatietechnieken, toont FiTv2 opmerkelijke aanpasbaarheid in zowel resolutie-extrapolatie als diverse resolutiegeneratie. Daarnaast onthult onze verkenning van de schaalbaarheid van het FiTv2-model dat grotere modellen betere computationele efficiëntie vertonen. Bovendien introduceren we een efficiënte post-trainingsstrategie om een voorgeleerd model aan te passen voor de generatie van hoge resolutie. Uitgebreide experimenten tonen de uitzonderlijke prestaties van FiTv2 over een breed scala van resoluties aan. We hebben alle codes en modellen vrijgegeven op https://github.com/whlzy/FiT om de verkenning van diffusietransformator modellen voor beeldgeneratie met willekeurige resolutie te bevorderen.
English
Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To address this limitation, we conceptualize images as sequences of tokens with dynamic sizes, rather than traditional methods that perceive images as fixed-resolution grids. This perspective enables a flexible training strategy that seamlessly accommodates various aspect ratios during both training and inference, thus promoting resolution generalization and eliminating biases introduced by image cropping. On this basis, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. We further upgrade the FiT to FiTv2 with several innovative designs, includingthe Query-Key vector normalization, the AdaLN-LoRA module, a rectified flow scheduler, and a Logit-Normal sampler. Enhanced by a meticulously adjusted network structure, FiTv2 exhibits 2times convergence speed of FiT. When incorporating advanced training-free extrapolation techniques, FiTv2 demonstrates remarkable adaptability in both resolution extrapolation and diverse resolution generation. Additionally, our exploration of the scalability of the FiTv2 model reveals that larger models exhibit better computational efficiency. Furthermore, we introduce an efficient post-training strategy to adapt a pre-trained model for the high-resolution generation. Comprehensive experiments demonstrate the exceptional performance of FiTv2 across a broad range of resolutions. We have released all the codes and models at https://github.com/whlzy/FiT to promote the exploration of diffusion transformer models for arbitrary-resolution image generation.

Summary

AI-Generated Summary

PDF223November 16, 2024