ChatPaper.aiChatPaper

MaskBit: 비트 토큰을 통한 임베딩 없는 이미지 생성

MaskBit: Embedding-free Image Generation via Bit Tokens

September 24, 2024
저자: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI

초록

마스크 트랜스포머 모델은 클래스 조건부 이미지 생성을 위한 유망한 대안으로 부각되어 왔으며 확산 모델에 대한 대안이 되고 있다. 일반적으로 두 단계로 구성되는데, 첫 번째는 잠재 공간과 이미지 공간 간의 전환을 위한 초기 VQGAN 모델이 포함되고, 두 번째는 잠재 공간 내에서 이미지 생성을 위한 Transformer 모델이 포함된다. 이러한 프레임워크는 이미지 합성을 위한 유망한 방법을 제공한다. 본 연구에서는 두 가지 주요 기여를 제시한다. 첫째, 현대화된 VQGAN을 이끌어내기 위한 경험적이고 체계적인 조사. 둘째, 풍부한 의미론을 가진 토큰의 이진 양자화 표현인 비트 토큰에 직접 작용하는 새로운 임베딩 없는 생성 네트워크. 첫 번째 기여는 투명하고 재현 가능하며 성능이 우수한 VQGAN 모델을 제공하여 접근성을 향상시키고 현재의 최첨단 방법들과 성능을 맞추면서 이전에 공개되지 않은 세부 사항을 드러낸다. 두 번째 기여는 비트 토큰을 사용한 임베딩 없는 이미지 생성이 ImageNet 256x256 벤치마크에서 새로운 최첨단 FID 1.52를 달성하며, 단 305M 매개변수의 간결한 생성자 모델을 제시한다.
English
Masked transformer models for class-conditional image generation have become a compelling alternative to diffusion models. Typically comprising two stages - an initial VQGAN model for transitioning between latent space and image space, and a subsequent Transformer model for image generation within latent space - these frameworks offer promising avenues for image synthesis. In this study, we present two primary contributions: Firstly, an empirical and systematic examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel embedding-free generation network operating directly on bit tokens - a binary quantized representation of tokens with rich semantics. The first contribution furnishes a transparent, reproducible, and high-performing VQGAN model, enhancing accessibility and matching the performance of current state-of-the-art methods while revealing previously undisclosed details. The second contribution demonstrates that embedding-free image generation using bit tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256 benchmark, with a compact generator model of mere 305M parameters.

Summary

AI-Generated Summary

PDF172November 16, 2024