ChatPaper.aiChatPaper

SeFAR: 시간적 왜곡과 학습 안정화를 이용한 준지도 세밀한 행동 인식

SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

January 2, 2025
저자: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI

초록

인간 행동 이해는 다중 모달 시스템의 발전에 중요하다. 최근 강력한 대형 언어 모델(Large Language Models, LLMs)에 의해 주도되는 최신 개발은 다양한 범주를 포괄할 수 있을 만큼 일반적이 되려고 하지만 종종 더 구체적인 능력이 필요하다는 점을 간과한다. 본 연구에서는 더 어려운 세부 행동 인식(Fine-grained Action Recognition, FAR) 작업에 대응한다. 이 작업은 더 짧은 시간 동안 자세한 의미 레이블에 초점을 맞추며("salto backward tucked with 1 turn"과 같은) 세부 행동 레이블을 다룬다. 세부 행동 레이블 주석의 높은 비용과 LLMs의 세밀한 조정에 필요한 상당한 데이터 양을 고려하여, 우리는 준지도 학습(Semi-Supervised Learning, SSL)을 채택하기로 제안한다. 우리의 프레임워크인 SeFAR는 이러한 과제를 해결하기 위해 여러 혁신적인 설계를 통합한다. 구체적으로 충분한 시각적 세부 사항을 포착하기 위해, 우리는 더 효과적인 표현으로 이중 수준의 시간 요소를 구성하고, 이를 기반으로 교사-학생 학습 패러다임을 위한 새로운 강력한 증강 전략을 설계한다. 또한 FAR에 대한 교사 모델의 예측 내에서 높은 불확실성을 처리하기 위해 학습 과정을 안정화하기 위한 적응적 규제를 제안한다. 실험 결과, SeFAR은 두 FAR 데이터셋인 FineGym과 FineDiving에서 최첨단 성능을 달성하며 다양한 데이터 범위에서 다른 준지도 방법보다 우수한 성과를 보여준다. 또한 UCF101과 HMDB51 두 고전적인 굵은 그레인 데이터셋에서 다른 준지도 방법을 능가한다. 추가 분석 및 제거 연구는 우리 설계의 효과를 검증한다. 게다가, 우리의 SeFAR에 의해 추출된 특징이 다중 모달 기초 모델이 세부하고 도메인 특정 의미를 이해하는 능력을 크게 촉진할 수 있음을 보여준다.
English
Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.

Summary

AI-Generated Summary

PDF52January 3, 2025