EVEv2: 인코더 없는 비전-언어 모델을 위한 개선된 베이스라인
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
저자: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
초록
기존의 인코더 없는 비전-언어 모델(VLMs)은 빠르게 성능 격차를 좁히고 있으며, 구조적 단순성과 효율적인 배포를 갖춘 통합된 다중 모달 시스템에 대한 유망한 잠재력을 강조하고 있습니다. 우리는 사전 훈련된 비전 인코더, 이산 토크나이저, 그리고 최소한의 시각적 레이어를 사용하여 VLMs 간의 성능 격차를 체계적으로 명확히 하고, 인코더 없는 VLMs의 미흡히 조사된 특성을 심층적으로 파헤칩니다. 우리는 주류의 인코더 기반 모델과 견줄만한 인코더 없는 VLMs를 위한 효율적인 전략을 개발합니다. 철저한 조사 끝에, 우리는 새롭고 개선된 인코더 없는 VLMs 패밀리인 EVEv2.0을 출시합니다. 우리는 보여줍니다: (i) 통합된 모델 내에서 비전과 언어를 적절히 분해하고 계층적으로 연관시킴으로써 모달 간 간섭을 줄입니다. (ii) 잘 설계된 훈련 전략은 인코더 없는 VLMs에 대한 효과적인 최적화를 가능하게 합니다. 광범위한 평가를 통해, 우리의 EVEv2.0은 모달 간 디코더 전용 아키텍처를 개발하기 위한 철저한 연구를 대표하며, 우수한 데이터 효율성과 강력한 비전 추론 능력을 보여줍니다. 코드는 다음 위치에서 공개되어 있습니다: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary