VideoICL: Apprendimento in contesto iterativo basato sulla fiducia per la comprensione dei video al di fuori della distribuzione
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Autori: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Abstract
Gli avanzamenti recenti nei modelli video large multimodali (LMM) hanno migliorato significativamente le loro capacità di comprensione e ragionamento video. Tuttavia, le loro prestazioni diminuiscono su compiti fuori distribuzione (OOD) che sono sottorappresentati nei dati di addestramento. Metodi tradizionali come il fine-tuning su set di dati OOD sono impraticabili a causa dei costi computazionali elevati. Mentre l'apprendimento in contesto (ICL) con esempi dimostrativi ha mostrato prestazioni di generalizzazione promettenti nei compiti linguistici e nei compiti di immagine-linguaggio senza fine-tuning, l'applicazione dell'ICL ai compiti video-linguaggio incontra sfide dovute alla lunghezza del contesto limitata nei Video LMM, poiché i video richiedono lunghezze di token più estese. Per affrontare questi problemi, proponiamo VideoICL, un nuovo framework di apprendimento in contesto video per compiti OOD che introduce una strategia di selezione di esempi rilevanti basata sulla similarità e un approccio di inferenza iterativo basato sulla fiducia. Ciò consente di selezionare gli esempi più rilevanti e classificarli in base alla similarità, da utilizzare per l'inferenza. Se la risposta generata ha una bassa fiducia, il nostro framework seleziona nuovi esempi e esegue nuovamente l'inferenza, affinando iterativamente i risultati fino a ottenere una risposta ad alta fiducia. Questo approccio migliora le prestazioni di comprensione video OOD estendendo la lunghezza efficace del contesto senza incorrere in costi elevati. I risultati sperimentali su diversi benchmark dimostrano significativi miglioramenti delle prestazioni, specialmente in scenari specifici di dominio, gettando le basi per applicazioni di comprensione video più ampie. Il codice sarà rilasciato su https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary