ChatPaper.aiChatPaper

그룹화된 구면 양자화를 사용한 이미지 토크나이저의 확장

Scaling Image Tokenizers with Grouped Spherical Quantization

December 3, 2024
저자: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI

초록

비전 토크나이저는 확장성과 조밀성으로 많은 관심을 받아왔습니다. 이전 연구들은 구식 GAN 기반 하이퍼파라미터, 편향된 비교, 그리고 스케일링 행위의 포괄적인 분석 부재에 의존했습니다. 이러한 문제에 대처하기 위해, 우리는 구성된 구 형식 양자화(Grouped Spherical Quantization, GSQ)를 소개합니다. 이 방법은 구 코드북 초기화와 룩업 정규화를 특징으로 하여 코드북 잠재를 구 표면으로 제한합니다. 이미지 토크나이저 교육 전략에 대한 우리의 경험적 분석은 GSQ-GAN이 최신 방법들보다 더 적은 교육 반복으로 우수한 재구성 품질을 달성하며, 스케일링 연구를 위한 견고한 기반을 제공합니다. 이를 바탕으로, 우리는 GSQ의 스케일링 행위를 체계적으로 조사합니다. 특히 잠재 차원, 코드북 크기, 압축 비율 및 모델 성능에 미치는 영향을 분석합니다. 우리의 연구 결과는 고낮은 공간 압축 수준에서 구별되는 행위를 드러내며, 고차원 잠재 공간 표현의 어려움을 강조합니다. 우리는 GSQ가 고차원 잠재를 조밀하고 저차원 공간으로 재구성할 수 있어서 품질을 개선하면서 효율적인 스케일링을 가능하게 할 수 있다는 것을 보여줍니다. 결과적으로, GSQ-GAN은 0.50의 재구성 FID(rFID)로 16배 다운샘플링을 달성합니다.
English
Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.

Summary

AI-Generated Summary

PDF102December 4, 2024