SeFAR: Reconhecimento de Ações Detalhadas Semi-supervisionado com Perturbação Temporal e Estabilização de Aprendizado
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
Autores: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
Resumo
A compreensão da ação humana é crucial para o avanço de sistemas multimodais. Enquanto os desenvolvimentos recentes, impulsionados por poderosos modelos de linguagem de grande escala (LLMs), visam ser suficientemente gerais para abranger uma ampla gama de categorias, muitas vezes negligenciam a necessidade de capacidades mais específicas. Neste trabalho, abordamos a tarefa mais desafiadora de Reconhecimento de Ação Detalhado (FAR), que se concentra em rótulos semânticos detalhados dentro de uma duração temporal mais curta (por exemplo, "salto para trás com 1 volta"). Dados os altos custos de anotação de rótulos detalhados e a quantidade substancial de dados necessária para ajustar finamente os LLMs, propomos adotar a aprendizagem semi-supervisionada (SSL). Nosso framework, SeFAR, incorpora vários designs inovadores para lidar com esses desafios. Especificamente, para capturar detalhes visuais suficientes, construímos Elementos temporais em dois níveis como representações mais eficazes, com base nos quais projetamos uma nova estratégia de aumento forte para o paradigma de aprendizagem Professor-Aluno envolvendo perturbação temporal moderada. Além disso, para lidar com a alta incerteza nas previsões do modelo professor para FAR, propomos a Regulação Adaptativa para estabilizar o processo de aprendizagem. Experimentos mostram que o SeFAR alcança desempenho de ponta em dois conjuntos de dados FAR, FineGym e FineDiving, em várias escalas de dados. Ele também supera outros métodos semi-supervisionados em dois conjuntos de dados clássicos de granulação grosseira, UCF101 e HMDB51. Análises adicionais e estudos de ablação validam a eficácia de nossos designs. Além disso, demonstramos que as características extraídas pelo nosso SeFAR podem promover significativamente a capacidade dos modelos de fundação multimodais de entender semânticas detalhadas e específicas de domínio.
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary