PAVE: Patch e Adattamento di Modelli Linguistici su Grande Scala per Video
PAVE: Patching and Adapting Video Large Language Models
March 25, 2025
Autori: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI
Abstract
I modelli linguistici pre-addestrati su video (Video LLM) dimostrano capacità di ragionamento notevoli, ma adattare questi modelli a nuovi compiti che coinvolgono modalità o tipi di dati aggiuntivi (ad esempio, audio o informazioni 3D) rimane una sfida. In questo articolo, presentiamo PAVE, un framework flessibile per adattare i Video LLM pre-addestrati a compiti downstream con segnali di canale laterale, come audio, indicazioni 3D o video multi-vista. PAVE introduce adattatori leggeri, denominati "patch", che aggiungono un numero ridotto di parametri e operazioni a un modello di base senza modificarne l'architettura o i pesi pre-addestrati. In questo modo, PAVE può adattare efficacemente il modello pre-addestrato per supportare vari compiti downstream, tra cui risposte a domande audio-visive, ragionamento 3D, riconoscimento di video multi-vista e comprensione di video ad alta frequenza di fotogrammi. In questi compiti, PAVE migliora significativamente le prestazioni del modello di base, superando i modelli specifici per compiti all'avanguardia con un costo aggiuntivo minimo di circa lo 0,1% in termini di FLOP e parametri. Inoltre, PAVE supporta l'apprendimento multi-task e si generalizza bene su diversi Video LLM. Il nostro codice è disponibile all'indirizzo https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable
reasoning capabilities, yet adapting these models to new tasks involving
additional modalities or data types (e.g., audio or 3D information) remains
challenging. In this paper, we present PAVE, a flexible framework for adapting
pre-trained Video LLMs to downstream tasks with side-channel signals, such as
audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters,
referred to as "patches," which add a small number of parameters and operations
to a base model without modifying its architecture or pre-trained weights. In
doing so, PAVE can effectively adapt the pre-trained base model to support
diverse downstream tasks, including audio-visual question answering, 3D
reasoning, multi-view video recognition, and high frame rate video
understanding. Across these tasks, PAVE significantly enhances the performance
of the base model, surpassing state-of-the-art task-specific models while
incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE
supports multi-task learning and generalizes well across different Video LLMs.
Our code is available at https://github.com/dragonlzm/PAVE.Summary
AI-Generated Summary