ChatPaper.aiChatPaper

토큰플로우: 다중 모달 이해와 생성을 위한 통합 이미지 토크나이저

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

December 4, 2024
저자: Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu
cs.AI

초록

우리는 TokenFlow를 제시합니다. 이는 다중 모달 이해와 생성 사이의 오랜 간극을 메우는 혁신적인 통합 이미지 토크나이저입니다. 이전 연구는 단일 재구성을 목표로 하는 Vector Quantization (VQ) 인코더를 사용하여 이 두 작업을 통합하려고 시도했습니다. 우리는 이해와 생성이 근본적으로 다른 시각 정보의 세분화를 필요로 한다는 것을 관찰했습니다. 이로 인해 중요한 절충이 발생하며 특히 다중 모달 이해 작업의 성능이 저하됩니다. TokenFlow는 이 도전에 대처하기 위해 혁신적인 이중 코드북 아키텍처를 통해 의미론적 및 픽셀 수준의 특징 학습을 분리하면서 공유 매핑 메커니즘을 통해 그들의 정렬을 유지합니다. 이 설계는 이해 작업에 중요한 고수준 의미 표현과 생성에 필수적인 세밀한 시각적 특징에 대한 직접 액세스를 가능하게 합니다. 우리의 포괄적인 실험은 TokenFlow의 다양한 차원에서의 우월성을 입증합니다. TokenFlow를 활용하여 우리는 처음으로 이산적 시각 입력이 이해 성능에서 LLaVA-1.5 13B를 능가하는 것을 시연하며 평균 7.2%의 향상을 달성합니다. 이미지 재구성에서는 384*384 해상도에서 강력한 FID 점수인 0.63을 달성합니다. 더욱이, TokenFlow는 256*256 해상도에서 GenEval 점수가 0.55로 자율 회귀 이미지 생성에서 최첨단 성능을 달성하며 SDXL과 유사한 결과를 얻습니다.
English
We present TokenFlow, a novel unified image tokenizer that bridges the long-standing gap between multimodal understanding and generation. Prior research attempt to employ a single reconstruction-targeted Vector Quantization (VQ) encoder for unifying these two tasks. We observe that understanding and generation require fundamentally different granularities of visual information. This leads to a critical trade-off, particularly compromising performance in multimodal understanding tasks. TokenFlow addresses this challenge through an innovative dual-codebook architecture that decouples semantic and pixel-level feature learning while maintaining their alignment via a shared mapping mechanism. This design enables direct access to both high-level semantic representations crucial for understanding tasks and fine-grained visual features essential for generation through shared indices. Our extensive experiments demonstrate TokenFlow's superiority across multiple dimensions. Leveraging TokenFlow, we demonstrate for the first time that discrete visual input can surpass LLaVA-1.5 13B in understanding performance, achieving a 7.2\% average improvement. For image reconstruction, we achieve a strong FID score of 0.63 at 384*384 resolution. Moreover, TokenFlow establishes state-of-the-art performance in autoregressive image generation with a GenEval score of 0.55 at 256*256 resolution, achieving comparable results to SDXL.

Summary

AI-Generated Summary

PDF313December 5, 2024