Qwen2-VL: 어떠한 해상도에서도 세계에 대한 Vision-Language 모델의 지각 향상
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
September 18, 2024
저자: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI
초록
이전의 Qwen-VL 모델의 고급 업그레이드인 Qwen2-VL 시리즈를 소개합니다. 이 모델은 시각 처리에서 전통적인 결정적 해상도 접근 방식을 재정의합니다. Qwen2-VL은 Naive Dynamic Resolution 메커니즘을 도입하여 모델이 다양한 해상도의 이미지를 동적으로 처리하여 다른 수의 시각 토큰으로 변환할 수 있게 합니다. 이 접근 방식은 모델이 더 효율적이고 정확한 시각적 표현을 생성할 수 있도록 하며 인간의 지각 과정과 밀접하게 일치합니다. 또한 모델은 Multimodal Rotary Position Embedding (M-RoPE)을 통합하여 텍스트, 이미지 및 비디오 간의 위치 정보를 효과적으로 통합합니다. 이미지와 비디오를 처리하기 위해 통합된 패러다임을 채택하여 모델의 시각 지각 능력을 향상시킵니다. 대규모 다중모달 모델의 잠재력을 탐구하기 위해 Qwen2-VL은 대규모 비전-언어 모델 (LVLMs)에 대한 스케일링 법칙을 조사합니다. 모델 크기(2B, 8B 및 72B 매개변수 버전)와 교육 데이터 양을 모두 확장함으로써 Qwen2-VL 시리즈는 매우 경쟁력 있는 성능을 달성합니다. 특히, Qwen2-VL-72B 모델은 GPT-4o 및 Claude3.5-Sonnet과 같은 선도적인 모델과 비교하여 다양한 다중모달 벤치마크에서 우수한 결과를 달성하며 다른 종합 모델을 능가합니다. 코드는 https://github.com/QwenLM/Qwen2-VL에서 제공됩니다.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL
models that redefines the conventional predetermined-resolution approach in
visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism,
which enables the model to dynamically process images of varying resolutions
into different numbers of visual tokens. This approach allows the model to
generate more efficient and accurate visual representations, closely aligning
with human perceptual processes. The model also integrates Multimodal Rotary
Position Embedding (M-RoPE), facilitating the effective fusion of positional
information across text, images, and videos. We employ a unified paradigm for
processing both images and videos, enhancing the model's visual perception
capabilities. To explore the potential of large multimodal models, Qwen2-VL
investigates the scaling laws for large vision-language models (LVLMs). By
scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the
amount of training data, the Qwen2-VL Series achieves highly competitive
performance. Notably, the Qwen2-VL-72B model achieves results comparable to
leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal
benchmarks, outperforming other generalist models. Code is available at
https://github.com/QwenLM/Qwen2-VL.Summary
AI-Generated Summary