PaliGemma 2: Una famiglia di VLM versatili per il trasferimento

PaliGemma 2: A Family of Versatile VLMs for Transfer

December 4, 2024
Autori: Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai
cs.AI

Abstract

PaliGemma 2 è un aggiornamento del Modello di Visione-Linguaggio (VLM) open PaliGemma basato sulla famiglia di modelli linguistici Gemma 2. Combiniamo l'encoder di visione SigLIP-So400m, utilizzato anche da PaliGemma, con l'intera gamma di modelli Gemma 2, dal modello 2B fino al modello 27B. Alleniamo questi modelli a tre risoluzioni (224px, 448px e 896px) in diverse fasi per dotarli di una vasta conoscenza per il trasferimento tramite raffinamento. La famiglia risultante di modelli base che coprono diverse dimensioni e risoluzioni ci consente di indagare sui fattori che influenzano le prestazioni di trasferimento (come il tasso di apprendimento) e di analizzare l'interazione tra il tipo di compito, la dimensione del modello e la risoluzione. Aumentiamo ulteriormente il numero e l'ampiezza dei compiti di trasferimento al di là del campo di PaliGemma, inclusi diversi compiti correlati all'OCR come il riconoscimento della struttura delle tabelle, il riconoscimento della struttura molecolare, il riconoscimento dello spartito musicale, nonché la generazione di didascalie dettagliate e la redazione di referti radiografici, su cui PaliGemma 2 ottiene risultati all'avanguardia.
English
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.

Summary

AI-Generated Summary

PDF1248December 5, 2024