SeFAR: Riconoscimento delle azioni dettagliate semi-supervisionato con perturbazione temporale e stabilizzazione dell'apprendimento
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Autori: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Abstract
La comprensione dell'azione umana è cruciale per l'avanzamento dei sistemi multimodali. Mentre gli sviluppi recenti, guidati da potenti modelli linguistici di grandi dimensioni (LLM), mirano ad essere sufficientemente generali da coprire una vasta gamma di categorie, spesso trascurano la necessità di capacità più specifiche. In questo lavoro, affrontiamo il compito più impegnativo del Riconoscimento dell'Azione Dettagliato (FAR), che si concentra su etichette semantiche dettagliate all'interno di brevi periodi temporali (ad esempio, "salto all'indietro con 1 rotazione"). Date le elevate spese di annotazione delle etichette dettagliate e i considerevoli dati necessari per il raffinamento dei LLM, proponiamo di adottare l'apprendimento semi-supervisionato (SSL). Il nostro framework, SeFAR, incorpora diversi design innovativi per affrontare queste sfide. In particolare, per catturare dettagli visivi sufficienti, costruiamo Elementi Temporali a Doppio Livello come rappresentazioni più efficaci, basandoci su cui progettiamo una nuova strategia di forte aumento per il paradigma di apprendimento Teacher-Student coinvolgendo una moderata perturbazione temporale. Inoltre, per gestire l'alta incertezza nelle previsioni del modello insegnante per FAR, proponiamo la Regolazione Adattiva per stabilizzare il processo di apprendimento. Gli esperimenti mostrano che SeFAR raggiunge prestazioni all'avanguardia su due set di dati FAR, FineGym e FineDiving, su varie portate di dati. Supera anche altri metodi semi-supervisionati su due classici set di dati a grana grossa, UCF101 e HMDB51. Ulteriori analisi e studi di ablation convalidano l'efficacia dei nostri design. Inoltre, mostriamo che le caratteristiche estratte dal nostro SeFAR potrebbero notevolmente promuovere la capacità dei modelli di base multimodali di comprendere semantica dettagliata e specifica del dominio.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary