ChatPaper.aiChatPaper

EQ-VAE: 생성적 이미지 모델링 향상을 위한 등변성 정규화 잠재 공간

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

February 13, 2025
저자: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI

초록

잠재 생성 모델(Latent Generative Models)은 고품질 이미지 합성을 위한 주요 접근법으로 부상했습니다. 이러한 모델들은 이미지를 잠재 공간으로 압축하는 오토인코더와 잠재 분포를 학습하는 생성 모델로 구성됩니다. 우리는 기존 오토인코더들이 크기 조정 및 회전과 같은 의미 보존 변환에 대해 등변성(equivariance)이 부족하여, 생성 성능을 저해하는 복잡한 잠재 공간을 초래한다는 점을 발견했습니다. 이를 해결하기 위해, 우리는 EQ-VAE를 제안합니다. 이는 잠재 공간에서 등변성을 강제하는 간단한 정규화 접근법으로, 복원 품질을 저하시키지 않으면서 잠재 공간의 복잡성을 줄입니다. 사전 훈련된 오토인코더를 EQ-VAE로 미세 조정함으로써, DiT, SiT, REPA, MaskGIT 등 여러 최신 생성 모델의 성능을 향상시켰으며, SD-VAE 미세 조정을 단 5 에포크만 수행하여 DiT-XL/2에서 7배의 속도 향상을 달성했습니다. EQ-VAE는 연속형 및 이산형 오토인코더 모두와 호환되므로, 다양한 잠재 생성 모델에 대한 다목적 개선을 제공합니다. 프로젝트 페이지 및 코드: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

Summary

AI-Generated Summary

PDF52February 18, 2025