Machen Sie Ihr Training flexibel: Auf dem Weg zu bereitstellungseffizienten Videomodellen
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Autoren: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Zusammenfassung
Beliebte Video-Trainingsmethoden arbeiten hauptsächlich mit einer festen Anzahl von Tokens, die aus einem vordefinierten raumzeitlichen Raster entnommen werden, was aufgrund der inhärenten Redundanz von Videos zu suboptimalen Kompromissen zwischen Genauigkeit und Rechenaufwand führt. Zudem fehlt ihnen die Anpassungsfähigkeit an unterschiedliche Rechenbudgets für nachgelagerte Aufgaben, was die Anwendung des leistungsstärksten Modells in realen Szenarien behindert. Wir schlagen daher eine neue Testumgebung, die Token-Optimierung, vor, um die Eingabeinformationen über verschiedene Budgets hinweg zu maximieren. Dabei wird die größenbeschränkte Menge der Eingabe-Tokens durch eine Token-Auswahl aus geeigneter abgetasteten Videos optimiert. Zu diesem Zweck stellen wir ein neuartiges Augmentations-Tool namens Flux vor. Durch die Flexibilisierung des Abtastrasters und die Nutzung der Token-Auswahl lässt es sich leicht in die meisten gängigen Video-Trainingsframeworks integrieren und steigert die Robustheit des Modells mit nahezu keinen zusätzlichen Kosten. Wir integrieren Flux in das groß angelegte Video-Pre-Training, und das daraus resultierende FluxViT erzielt neue State-of-the-Art-Ergebnisse in einer Vielzahl von Aufgaben zu Standardkosten. Bemerkenswerterweise kann es mit nur 1/4 der Tokens die Leistung früherer State-of-the-Art-Modelle mit Token-Optimierung erreichen, was eine Einsparung von fast 90\% ermöglicht. Alle Modelle und Daten sind unter https://github.com/OpenGVLab/FluxViT verfügbar.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary