VARCO-VISION: Espandere i confini nei modelli coreani di visione-linguaggio
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
November 28, 2024
Autori: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim
cs.AI
Abstract
In questo articolo, presentiamo un modello visione-linguaggio (VLM) coreano-inglese open-source, VARCO-VISION. Incorporiamo una strategia di addestramento passo dopo passo che consente al modello di apprendere informazioni linguistiche e visive preservando la conoscenza del modello di base. Il nostro modello dimostra prestazioni eccezionali in contesti diversi che richiedono capacità di comprensione e generazione di immagini-testo bilingue rispetto a modelli di dimensioni simili. VARCO-VISION è inoltre in grado di ancorare, fare riferimento e OCR, espandendo le sue possibilità di utilizzo e potenziali applicazioni per scenari reali. Oltre al modello, rilasciamo cinque set di dati di valutazione coreani, tra cui quattro benchmark a insieme chiuso e uno a insieme aperto. Prevediamo che il nostro traguardo amplierà le opportunità per i ricercatori di AI che mirano ad addestrare VLM. VARCO-VISION è disponibile su https://huggingface.co/NCSOFT/VARCO-VISION-14B.
English
In this paper, we introduce an open-source Korean-English vision-language
model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that
allows a model learn both linguistic and visual information while preserving
the backbone model's knowledge. Our model demonstrates outstanding performance
in diverse settings requiring bilingual image-text understanding and generation
abilities compared to models of similar size. VARCO-VISION is also capable of
grounding, referring, and OCR, expanding its usage and potential applications
for real-world scenarios. In addition to the model, we release five Korean
evaluation datasets, including four closed-set and one openset benchmarks. We
anticipate that our milestone will broaden the opportunities for AI researchers
aiming to train VLMs. VARCO-VISION is available at
https://huggingface.co/NCSOFT/VARCO-VISION-14B.Summary
AI-Generated Summary