Inst-IT: Potenziamento della Comprensione delle Istanze Multimodali tramite un'Accurata Regolazione delle Istruzioni Visive Esplicite.
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
December 4, 2024
Autori: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
I Large Multimodal Models (LMM) hanno ottenuto significativi progressi con lo sviluppo dell'ottimizzazione dell'istruzione. Tuttavia, mentre i modelli esistenti possono comprendere immagini e video a livello olistico, faticano ancora con la comprensione a livello di istanza che richiede una comprensione e allineamento più sfumati. La comprensione a livello di istanza è cruciale, poiché si concentra sugli elementi specifici che ci interessano di più. Con entusiasmo, i lavori esistenti trovano che i LMM all'avanguardia mostrano forti capacità di comprensione a livello di istanza quando vengono forniti con chiari indizi visivi. Motivati da ciò, introduciamo un flusso di annotazione automatizzato assistito da GPT-4o per estrarre informazioni a livello di istanza da immagini e video attraverso indirizzamenti visivi espliciti per la guida a livello di istanza. Basandoci su questo flusso di lavoro, proponiamo Inst-IT, una soluzione per potenziare i LMM nella comprensione a livello di istanza tramite l'ottimizzazione dell'istruzione con indirizzamento visivo esplicito. Inst-IT consiste in un benchmark per diagnosticare la comprensione a livello di istanza multimodale, un dataset di ottimizzazione dell'istruzione su larga scala e un paradigma di addestramento continuo all'ottimizzazione dell'istruzione per potenziare efficacemente le capacità di comprensione a livello di istanza spazio-temporale dei LMM esistenti. I risultati sperimentali mostrano che, con l'impulso di Inst-IT, i nostri modelli non solo raggiungono prestazioni eccezionali sul Benchmark di Inst-IT, ma dimostrano anche miglioramenti significativi su vari benchmark generici di comprensione di immagini e video. Ciò sottolinea che il nostro dataset non solo potenzia la comprensione a livello di istanza, ma rafforza anche le capacità complessive di comprensione di immagini e video generici.
English
Large Multimodal Models (LMMs) have made significant breakthroughs with the
advancement of instruction tuning. However, while existing models can
understand images and videos at a holistic level, they still struggle with
instance-level understanding that requires a more nuanced comprehension and
alignment. Instance-level understanding is crucial, as it focuses on the
specific elements that we are most interested in. Excitingly, existing works
find that the state-of-the-art LMMs exhibit strong instance understanding
capabilities when provided with explicit visual cues. Motivated by this, we
introduce an automated annotation pipeline assisted by GPT-4o to extract
instance-level information from images and videos through explicit visual
prompting for instance guidance. Building upon this pipeline, we proposed
Inst-IT, a solution to enhance LMMs in Instance understanding via explicit
visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose
multimodal instance-level understanding, a large-scale instruction-tuning
dataset, and a continuous instruction-tuning training paradigm to effectively
enhance spatial-temporal instance understanding capabilities of existing LMMs.
Experimental results show that, with the boost of Inst-IT, our models not only
achieve outstanding performance on Inst-IT Bench but also demonstrate
significant improvements across various generic image and video understanding
benchmarks. This highlights that our dataset not only boosts instance-level
understanding but also strengthens the overall capabilities of generic image
and video comprehension.Summary
AI-Generated Summary