AnyAnomaly: Null-Shot anpassbare Video-Anomalieerkennung mit LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Autoren: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Zusammenfassung
Die Erkennung von Videoanomalien (Video Anomaly Detection, VAD) ist entscheidend für die Videoanalyse und Überwachung in der Computer Vision. Bisherige VAD-Modelle stützen sich jedoch auf erlernte normale Muster, was ihre Anwendung in diversen Umgebungen erschwert. Folglich müssen Benutzer Modelle neu trainieren oder separate KI-Modelle für neue Umgebungen entwickeln, was Expertise im Bereich des maschinellen Lernens, leistungsstarke Hardware und umfangreiche Datensammlungen erfordert. Dies schränkt die praktische Nutzbarkeit von VAD ein. Um diese Herausforderungen zu bewältigen, schlägt diese Studie die anpassbare Videoanomalieerkennung (Customizable Video Anomaly Detection, C-VAD) und das AnyAnomaly-Modell vor. C-VAD betrachtet benutzerdefinierte Texte als anormale Ereignisse und erkennt Frames, die ein bestimmtes Ereignis in einem Video enthalten. Wir haben AnyAnomaly effektiv mithilfe eines kontextbewussten visuellen Frage-Antwort-Systems implementiert, ohne das große Vision-Language-Modell feinabzustimmen. Um die Wirksamkeit des vorgeschlagenen Modells zu validieren, haben wir C-VAD-Datensätze erstellt und die Überlegenheit von AnyAnomaly demonstriert. Darüber hinaus zeigte unser Ansatz eine wettbewerbsfähige Leistung auf VAD-Benchmark-Datensätzen, erreichte state-of-the-art Ergebnisse auf dem UBnormal-Datensatz und übertraf andere Methoden in der Generalisierung über alle Datensätze hinweg. Unser Code ist online verfügbar unter github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary