BiGR: 이미지 생성 및 향상된 시각적 표현 능력을 위한 이진 잠재 코드 활용
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
October 18, 2024
저자: Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong
cs.AI
초록
우리는 생성적 훈련을 위해 조건적 이미지 생성 모델인 BiGR을 소개합니다. 이 모델은 생성 및 표현 능력을 향상시키는 데 초점을 맞추어 콤팩트한 이진 잠재 코드를 사용합니다. BiGR은 생성과 판별을 동일한 프레임워크 내에서 통합하는 첫 번째 조건적 생성 모델입니다. BiGR은 이진 토크나이저, 가려진 모델링 메커니즘, 이진 코드 예측을 위한 이진 트랜스코더를 특징으로 합니다. 게다가 효율적인 이미지 생성을 가능하게 하는 새로운 엔트로피 순서 샘플링 방법을 소개합니다. 광범위한 실험에서 FID-50k로 측정한 생성 품질과 선형 프로브 정확도에 의해 입증된 표현 능력 면에서 BiGR의 우수한 성능을 검증합니다. 더불어 BiGR은 구조적 수정 없이 이미지 인페인팅, 아웃페인팅, 편집, 보간 및 보강과 같은 응용 프로그램을 가능하게 하는 다양한 시각 작업에 걸쳐 제로샷 일반화를 선보입니다. 우리의 연구 결과는 BiGR이 생성적 및 판별적 작업을 효과적으로 통합하여 분야에서의 추가 발전을 이끌어내는 것을 시사합니다.
English
We introduce BiGR, a novel conditional image generation model using compact
binary latent codes for generative training, focusing on enhancing both
generation and representation capabilities. BiGR is the first conditional
generative model that unifies generation and discrimination within the same
framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a
binary transcoder for binary code prediction. Additionally, we introduce a
novel entropy-ordered sampling method to enable efficient image generation.
Extensive experiments validate BiGR's superior performance in generation
quality, as measured by FID-50k, and representation capabilities, as evidenced
by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization
across various vision tasks, enabling applications such as image inpainting,
outpainting, editing, interpolation, and enrichment, without the need for
structural modifications. Our findings suggest that BiGR unifies generative and
discriminative tasks effectively, paving the way for further advancements in
the field.Summary
AI-Generated Summary