LLaVAction: valutazione e addestramento di modelli linguistici multimodali di grandi dimensioni per il riconoscimento delle azioni

Abstract

Comprendere il comportamento umano richiede la misurazione delle azioni comportamentali. A causa della sua complessità, il comportamento è meglio mappato su una struttura semantica ricca come il linguaggio. Il recente sviluppo di modelli linguistici multimodali di grandi dimensioni (MLLMs) rappresenta un candidato promettente per un'ampia gamma di compiti di comprensione delle azioni. In questo lavoro, ci concentriamo sulla valutazione e successivamente sul miglioramento degli MLLMs per eseguire il riconoscimento delle azioni. Riformuliamo EPIC-KITCHENS-100, uno dei più grandi e impegnativi dataset di azioni egocentriche, nella forma di risposte multiple a domande video (EPIC-KITCHENS-100-MQA). Dimostriamo che quando campioniamo risposte errate difficili come distrattori, i principali MLLMs faticano a riconoscere le azioni corrette. Proponiamo una serie di metodi che migliorano notevolmente la capacità degli MLLMs di eseguire il riconoscimento delle azioni, raggiungendo lo stato dell'arte sia sul set di validazione di EPIC-KITCHENS-100, sia superando GPT-4o di 21 punti in accuratezza su EPIC-KITCHENS-100-MQA. Infine, mostriamo miglioramenti su altri benchmark video relativi alle azioni come EgoSchema, PerceptionTest, LongVideoBench, VideoMME e MVBench, suggerendo che gli MLLMs rappresentano una strada promettente per compiti complessi legati alle azioni. Codice e modelli sono disponibili all'indirizzo: https://github.com/AdaptiveMotorControlLab/LLaVAction.

English

Understanding human behavior requires measuring behavioral actions. Due to its complexity, behavior is best mapped onto a rich, semantic structure such as language. The recent development of multi-modal large language models (MLLMs) is a promising candidate for a wide range of action understanding tasks. In this work, we focus on evaluating and then improving MLLMs to perform action recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most challenging egocentric action datasets, to the form of video multiple question answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult incorrect answers as distractors, leading MLLMs struggle to recognize the correct actions. We propose a series of methods that greatly improve the MLLMs' ability to perform action recognition, achieving state-of-the-art on both the EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other action-related video benchmarks such as EgoSchema, PerceptionTest, LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising path forward for complex action tasks. Code and models are available at: https://github.com/AdaptiveMotorControlLab/LLaVAction.

LLaVAction: valutazione e addestramento di modelli linguistici multimodali di grandi dimensioni per il riconoscimento delle azioni

LLaVAction: evaluating and training multi-modal large language models for action recognition

Abstract

Summary

Support

Support