SigLIP 2: 향상된 의미 이해, 지역화 및 밀집 특성을 갖춘 다국어 비전-언어 인코더
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
February 20, 2025
저자: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
cs.AI
초록
우리는 원래의 SigLIP의 성공을 기반으로 한 새로운 다국어 비전-언어 인코더인 SigLIP 2 시리즈를 소개합니다. 이 두 번째 버전에서는 원래의 이미지-텍스트 학습 목표를 여러 독립적으로 개발된 기법들과 통합하여 하나의 통합된 레시피로 확장했습니다. 여기에는 캡션 기반 사전 학습, 자기 지도 손실(자기 증류, 마스크 예측) 및 온라인 데이터 큐레이션이 포함됩니다. 이러한 변경을 통해 SigLIP 2 모델은 제로샷 분류, 이미지-텍스트 검색, 그리고 비전-언어 모델(VLMs)을 위한 시각적 표현 추출 시 전이 성능 등 핵심 능력에서 모든 모델 규모에서 SigLIP 모델을 능가합니다. 또한, 새로운 학습 레시피는 지역화 및 밀집 예측 작업에서도 상당한 개선을 이끌어냅니다. 우리는 여러 해상도를 지원하고 입력의 원래 종횡비를 유지하는 변형 모델도 학습했습니다. 마지막으로, 편향 제거 기법을 포함한 더 다양한 데이터 혼합을 사용하여 학습함으로써 다국어 이해 능력과 공정성이 크게 향상되었습니다. 사용자가 추론 비용과 성능 간의 균형을 맞출 수 있도록, 우리는 ViT-B(86M), L(303M), So400m(400M), 그리고 g(1B)의 네 가지 크기의 모델 체크포인트를 공개합니다.
English
We introduce SigLIP 2, a family of new multilingual vision-language encoders
that build on the success of the original SigLIP. In this second iteration, we
extend the original image-text training objective with several prior,
independently developed techniques into a unified recipe -- this includes
captioning-based pretraining, self-supervised losses (self-distillation, masked
prediction) and online data curation. With these changes, SigLIP 2 models
outperform their SigLIP counterparts at all model scales in core capabilities,
including zero-shot classification, image-text retrieval, and transfer
performance when extracting visual representations for Vision-Language Models
(VLMs). Furthermore, the new training recipe leads to significant improvements
on localization and dense prediction tasks. We also train variants which
support multiple resolutions and preserve the input's native aspect ratio.
Finally, we train on a more diverse data-mixture that includes de-biasing
techniques, leading to much better multilingual understanding and improved
fairness. To allow users to trade off inference cost with performance, we
release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M),
and g (1B).Summary
AI-Generated Summary