LLaVAction: valutazione e addestramento di modelli linguistici multimodali di grandi dimensioni per il riconoscimento delle azioni
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Autori: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Abstract
Comprendere il comportamento umano richiede la misurazione delle azioni comportamentali. A causa della sua complessità, il comportamento è meglio mappato su una struttura semantica ricca come il linguaggio. Il recente sviluppo di modelli linguistici multimodali di grandi dimensioni (MLLMs) rappresenta un candidato promettente per un'ampia gamma di compiti di comprensione delle azioni. In questo lavoro, ci concentriamo sulla valutazione e successivamente sul miglioramento degli MLLMs per eseguire il riconoscimento delle azioni. Riformuliamo EPIC-KITCHENS-100, uno dei più grandi e impegnativi dataset di azioni egocentriche, nella forma di risposte multiple a domande video (EPIC-KITCHENS-100-MQA). Dimostriamo che quando campioniamo risposte errate difficili come distrattori, i principali MLLMs faticano a riconoscere le azioni corrette. Proponiamo una serie di metodi che migliorano notevolmente la capacità degli MLLMs di eseguire il riconoscimento delle azioni, raggiungendo lo stato dell'arte sia sul set di validazione di EPIC-KITCHENS-100, sia superando GPT-4o di 21 punti in accuratezza su EPIC-KITCHENS-100-MQA. Infine, mostriamo miglioramenti su altri benchmark video relativi alle azioni come EgoSchema, PerceptionTest, LongVideoBench, VideoMME e MVBench, suggerendo che gli MLLMs rappresentano una strada promettente per compiti complessi legati alle azioni. Codice e modelli sono disponibili all'indirizzo: https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary