SeFAR: 時間的摂動と学習安定化を用いた半教師付きの細かい動作認識
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
January 2, 2025
著者: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
cs.AI
要旨
人間の行動理解は、マルチモーダルシステムの進歩にとって重要です。最近の進展は、強力な大規模言語モデル(LLMs)によって推進され、広範なカテゴリをカバーするために一般的であることを目指していますが、より具体的な能力の必要性をしばしば見落としています。本研究では、より困難なFine-grained Action Recognition(FAR)のタスクに取り組みます。これは、より短い時間的期間内で詳細な意味ラベルに焦点を当てています(例:「1回転を伴う後方宙返り」)。細かいラベルの注釈付けの高コストと、LLMsの微調整に必要な大規模なデータのため、半教師あり学習(SSL)を採用することを提案します。当社のフレームワーク、SeFARは、これらの課題に取り組むためにいくつかの革新的な設計を組み込んでいます。具体的には、十分な視覚的詳細を捉えるために、より効果的な表現としてデュアルレベルの時間要素を構築し、これに基づいてTeacher-Student学習パラダイムのための新しい強力な拡張戦略を設計するために、適度な時間的摂動を取り入れます。さらに、FARのための教師モデルの予測における高い不確実性を処理するために、学習プロセスを安定化させるためのAdaptive Regulationを提案します。実験結果は、SeFARがFineGymとFineDivingの2つのFARデータセットで最先端の性能を達成し、さまざまなデータスコープで他の半教師あり手法を上回っていることを示しています。さらに、UCF101とHMDB51の2つの古典的な粗いデータセットで、他の半教師あり手法を凌駕しています。さらなる分析と削除研究は、当社の設計の有効性を検証しています。さらに、SeFARによって抽出された特徴が、マルチモーダル基盤モデルが細かい意味やドメイン固有の意味を理解する能力を大幅に向上させることを示しています。
English
Human action understanding is crucial for the advancement of multimodal
systems. While recent developments, driven by powerful large language models
(LLMs), aim to be general enough to cover a wide range of categories, they
often overlook the need for more specific capabilities. In this work, we
address the more challenging task of Fine-grained Action Recognition (FAR),
which focuses on detailed semantic labels within shorter temporal duration
(e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating
fine-grained labels and the substantial data needed for fine-tuning LLMs, we
propose to adopt semi-supervised learning (SSL). Our framework, SeFAR,
incorporates several innovative designs to tackle these challenges.
Specifically, to capture sufficient visual details, we construct Dual-level
temporal elements as more effective representations, based on which we design a
new strong augmentation strategy for the Teacher-Student learning paradigm
through involving moderate temporal perturbation. Furthermore, to handle the
high uncertainty within the teacher model's predictions for FAR, we propose the
Adaptive Regulation to stabilize the learning process. Experiments show that
SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and
FineDiving, across various data scopes. It also outperforms other
semi-supervised methods on two classical coarse-grained datasets, UCF101 and
HMDB51. Further analysis and ablation studies validate the effectiveness of our
designs. Additionally, we show that the features extracted by our SeFAR could
largely promote the ability of multimodal foundation models to understand
fine-grained and domain-specific semantics.Summary
AI-Generated Summary