QLIP: 텍스트-맞춤형 시각 토큰화가 자기 회귀적 다중 모달 이해와 생성을 통합합니다.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
저자: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
초록
우리는 Quantized Language-Image Pretraining (QLIP)을 소개합니다. 이는 최신 재구성 품질과 최신 영상 이해의 제로샷을 결합한 시각 토큰화 방법입니다. QLIP은 이차원 구 형식 양자화 기반 오토인코더를 사용하여 재구성과 언어-이미지 정렬 목표를 훈련시킵니다. 우리는 두 목표가 서로 대립할 필요가 없음을 처음으로 보여줍니다. 우리는 훈련 중에 두 손실 용어를 동적으로 균형을 맞추고, 이미지-언어 사전 훈련의 대형 배치 요구 사항과 재구성 목표로 인한 메모리 병목 현상을 효과적으로 혼합하는 이차 훈련 파이프라인을 보여줍니다. 우리는 QLIP의 효과를 다중 모달 이해 및 텍스트 조건부 이미지 생성에 대해 단일 모델로 확인합니다. 구체적으로, QLIP은 LLaVA의 시각 인코더와 LlamaGen의 이미지 토크나이저를 대체하여 유사하거나 더 나은 성능을 보여줍니다. 마지막으로, QLIP이 이해와 생성을 위한 통합된 혼합 모달리티 자기 회귀 모델을 가능하게 한다는 것을 증명합니다.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary