LLaVAction: Bewertung und Training multimodaler großer Sprachmodelle für die Handlungserkennung
LLaVAction: evaluating and training multi-modal large language models for action recognition
March 24, 2025
Autoren: Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
cs.AI
Zusammenfassung
Das Verständnis menschlichen Verhaltens erfordert die Messung von Verhaltensaktionen. Aufgrund seiner Komplexität lässt sich Verhalten am besten auf eine reichhaltige, semantische Struktur wie Sprache abbilden. Die jüngste Entwicklung multimodaler großer Sprachmodelle (MLLMs) stellt einen vielversprechenden Kandidaten für eine Vielzahl von Aufgaben im Bereich des Aktionsverständnisses dar. In dieser Arbeit konzentrieren wir uns darauf, MLLMs zu evaluieren und anschließend zu verbessern, um Aktionserkennung durchzuführen. Wir reformulieren EPIC-KITCHENS-100, einen der größten und anspruchsvollsten egozentrischen Aktionsdatensätze, in die Form von Video Multiple Question Answering (EPIC-KITCHENS-100-MQA). Wir zeigen, dass führende MLLMs Schwierigkeiten haben, die korrekten Aktionen zu erkennen, wenn wir schwierige falsche Antworten als Ablenker auswählen. Wir schlagen eine Reihe von Methoden vor, die die Fähigkeit der MLLMs zur Aktionserkennung erheblich verbessern und state-of-the-art Ergebnisse sowohl auf dem EPIC-KITCHENS-100-Validierungssatz erzielen als auch GPT-4o um 21 Punkte in der Genauigkeit auf EPIC-KITCHENS-100-MQA übertreffen. Schließlich zeigen wir Verbesserungen auf anderen aktionsbezogenen Video-Benchmarks wie EgoSchema, PerceptionTest, LongVideoBench, VideoMME und MVBench, was darauf hindeutet, dass MLLMs ein vielversprechender Weg für komplexe Aktionsaufgaben sind. Code und Modelle sind verfügbar unter: https://github.com/AdaptiveMotorControlLab/LLaVAction.
English
Understanding human behavior requires measuring behavioral actions. Due to
its complexity, behavior is best mapped onto a rich, semantic structure such as
language. The recent development of multi-modal large language models (MLLMs)
is a promising candidate for a wide range of action understanding tasks. In
this work, we focus on evaluating and then improving MLLMs to perform action
recognition. We reformulate EPIC-KITCHENS-100, one of the largest and most
challenging egocentric action datasets, to the form of video multiple question
answering (EPIC-KITCHENS-100-MQA). We show that when we sample difficult
incorrect answers as distractors, leading MLLMs struggle to recognize the
correct actions. We propose a series of methods that greatly improve the MLLMs'
ability to perform action recognition, achieving state-of-the-art on both the
EPIC-KITCHENS-100 validation set, as well as outperforming GPT-4o by 21 points
in accuracy on EPIC-KITCHENS-100-MQA. Lastly, we show improvements on other
action-related video benchmarks such as EgoSchema, PerceptionTest,
LongVideoBench, VideoMME and MVBench, suggesting that MLLMs are a promising
path forward for complex action tasks. Code and models are available at:
https://github.com/AdaptiveMotorControlLab/LLaVAction.Summary
AI-Generated Summary