PaliGemma 2: 이동을 위한 다재다능한 VLM 계열
PaliGemma 2: A Family of Versatile VLMs for Transfer
December 4, 2024
저자: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI
초록
PaliGemma 2는 Gemma 2 패밀리의 언어 모델을 기반으로 한 PaliGemma 오픈 비전-언어 모델 (VLM)의 업그레이드입니다. 우리는 PaliGemma에서 사용된 SigLIP-So400m 비전 인코더를 Gemma 2의 전 범위 모델, 2B부터 27B 모델까지 결합합니다. 이러한 모델들을 224px, 448px, 896px의 세 가지 해상도에서 다단계로 훈련하여 이식을 통해 넓은 지식을 갖추게 합니다. 서로 다른 모델 크기와 해상도를 다루는 기본 모델 패밀리는 이식 성능에 영향을 미치는 요소 (학습률과 같은) 및 작업 유형, 모델 크기, 해상도 간의 상호 작용을 분석할 수 있도록 합니다. 우리는 PaliGemma의 범위를 넘어서 다양한 OCR 관련 작업 (테이블 구조 인식, 분자 구조 인식, 악보 인식 및 세밀한 캡션 및 방사선 영상 보고서 생성)을 포함한 이식 작업의 수와 범위를 더욱 증가시킵니다. PaliGemma 2는 이러한 작업에서 최첨단 결과를 얻습니다.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM)
based on the Gemma 2 family of language models. We combine the SigLIP-So400m
vision encoder that was also used by PaliGemma with the whole range of Gemma 2
models, from the 2B one all the way up to the 27B model. We train these models
at three resolutions (224px, 448px, and 896px) in multiple stages to equip them
with broad knowledge for transfer via fine-tuning. The resulting family of base
models covering different model sizes and resolutions allows us to investigate
factors impacting transfer performance (such as learning rate) and to analyze
the interplay between the type of task, model size, and resolution. We further
increase the number and breadth of transfer tasks beyond the scope of PaliGemma
including different OCR-related tasks such as table structure recognition,
molecular structure recognition, music score recognition, as well as long
fine-grained captioning and radiography report generation, on which PaliGemma 2
obtains state-of-the-art results.Summary
AI-Generated Summary