SmolVLM: Ridefinire i modelli multimodali piccoli ed efficienti
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
Autori: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
Abstract
I grandi modelli visione-linguaggio (VLMs) offrono prestazioni eccezionali ma richiedono risorse computazionali significative, limitandone il dispiegamento su dispositivi mobili e periferici. I VLMs più piccoli tendono a replicare le scelte progettuali dei modelli più grandi, come un'estesa tokenizzazione delle immagini, portando a un uso inefficiente della memoria GPU e a una praticità limitata per applicazioni su dispositivo.
Introduciamo SmolVLM, una serie di modelli multimodali compatti specificamente progettati per inferenza efficiente in termini di risorse. Esploriamo sistematicamente configurazioni architetturali, strategie di tokenizzazione e curatela dei dati ottimizzati per un basso sovraccarico computazionale. Attraverso questo processo, identifichiamo scelte progettuali chiave che garantiscono sostanziali miglioramenti nelle prestazioni su compiti di immagini e video con un'impronta di memoria minima.
Il nostro modello più piccolo, SmolVLM-256M, utilizza meno di 1 GB di memoria GPU durante l'inferenza e supera il modello Idefics-80B, 300 volte più grande, nonostante un divario di sviluppo di 18 mesi. Il nostro modello più grande, con 2,2 miliardi di parametri, rivaleggia con i VLMs all'avanguardia che consumano il doppio della memoria GPU. I modelli SmolVLM vanno oltre le immagini statiche, dimostrando robuste capacità di comprensione video.
I nostri risultati evidenziano che ottimizzazioni architetturali strategiche, tokenizzazione aggressiva ma efficiente e dati di addestramento accuratamente curati migliorano significativamente le prestazioni multimodali, facilitando dispiegamenti pratici ed energeticamente efficienti su scale significativamente più ridotte.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary