PUNTI 1.5: Costruzione di un Modello Visione-Linguaggio per Applicazioni del Mondo Reale
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
Autori: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
Abstract
I modelli visione-linguaggio hanno compiuto progressi significativi di recente, dimostrando prestazioni superiori in una serie di compiti, come il riconoscimento ottico dei caratteri e l'analisi di diagrammi complessi. Costruendo su questa tendenza, presentiamo un nuovo modello visione-linguaggio, POINTS1.5, progettato per eccellere in varie applicazioni del mondo reale. POINTS1.5 è un potenziamento di POINTS1.0 e incorpora diverse innovazioni chiave: i) Sostituiamo il codificatore di visione CLIP originale, che aveva una risoluzione immagine fissa, con un codificatore di visione in stile NaViT che supporta una risoluzione dinamica nativa elevata. Ciò consente a POINTS1.5 di elaborare immagini di qualsiasi risoluzione senza doverle suddividere in piastrelle. ii) Aggiungiamo il supporto bilingue a POINTS1.5, potenziando significativamente la sua capacità in cinese. A causa della scarsità di set di dati cinesi open-source per i modelli visione-linguaggio, raccogliamo numerose immagini da Internet e le annotiamo utilizzando una combinazione di metodi manuali e automatici. iii) Proponiamo un insieme di metodi rigorosi di filtraggio per i set di dati di sintonizzazione delle istruzioni visive. Valutiamo in modo esaustivo tutti questi metodi di filtraggio e scegliamo quelli più efficaci per ottenere il set finale di sintonizzazione delle istruzioni visive. Grazie a queste innovazioni, POINTS1.5 supera significativamente POINTS1.0 e dimostra prestazioni solide in una serie di applicazioni del mondo reale. In particolare, POINTS1.5-7B è addestrato su meno di 4 miliardi di token e si posiziona al primo posto nella classifica di OpenCompass tra i modelli con meno di 10 miliardi di parametri.
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary