PVChat: Personalisierter Video-Chat mit One-Shot-Learning
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Autoren: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Zusammenfassung
Video Large Language Models (ViLLMs) zeichnen sich durch ein allgemeines Verständnis von Videos aus, z. B. bei der Erkennung von Aktivitäten wie Sprechen und Essen, haben jedoch Schwierigkeiten mit identitätsbewusstem Verständnis, wie z. B. „Wilson erhält eine Chemotherapie“ oder „Tom diskutiert mit Sarah“. Dies schränkt ihre Anwendbarkeit in intelligenten Gesundheits- und Smart-Home-Umgebungen ein. Um diese Einschränkung zu überwinden, schlagen wir ein One-Shot-Learning-Framework namens PVChat vor, das erste personalisierte ViLLM, das subjektbewusstes Frage-Antworten (QA) aus einem einzelnen Video pro Subjekt ermöglicht. Unser Ansatz optimiert ein Mixture-of-Heads (MoH)-erweitertes ViLLM auf einem synthetisch erweiterten Video-QA-Datensatz unter Nutzung einer progressiven Bild-zu-Video-Lernstrategie. Konkret führen wir eine automatisierte Augmentationspipeline ein, die identitätserhaltende positive Beispiele synthetisiert und schwierige Negative aus bestehenden Videokorpora abruft, wodurch ein vielfältiger Trainingsdatensatz mit vier QA-Typen erzeugt wird: Existenz, Aussehen, Handlung und Ortsabfragen. Um das subjektspezifische Lernen zu verbessern, schlagen wir einen ReLU-Routing-MoH-Attentionsmechanismus vor, ergänzt durch zwei neuartige Ziele: (1) Smooth Proximity Regularization für progressives Lernen durch exponentielle Distanzskalierung und (2) Head Activation Enhancement für ausgewogenes Attention-Routing. Schließlich verwenden wir eine zweistufige Trainingsstrategie, die vom Bild-Pre-Training zum Video-Fine-Tuning übergeht und so einen schrittweisen Lernprozess von statischen Attributen zu dynamischen Repräsentationen ermöglicht. Wir evaluieren PVChat auf diversen Datensätzen, die medizinische Szenarien, TV-Serien, Anime und reale Aufnahmen abdecken, und zeigen seine Überlegenheit im Verständnis personalisierter Merkmale nach dem Lernen aus einem einzelnen Video im Vergleich zu state-of-the-art ViLLMs.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.Summary
AI-Generated Summary