ChatPaper.aiChatPaper

Video Tiefe Irgendetwas: Konsistente Tiefenschätzung für super-lange Videos

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

January 21, 2025
Autoren: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI

Zusammenfassung

Depth Anything hat bemerkenswerten Erfolg bei der monokularen Tiefenschätzung mit starker Verallgemeinerungsfähigkeit erzielt. Es leidet jedoch unter zeitlicher Inkonsistenz in Videos, was seine praktische Anwendbarkeit beeinträchtigt. Es wurden verschiedene Methoden vorgeschlagen, um dieses Problem zu mildern, indem Video-generierende Modelle genutzt oder Priors aus optischem Fluss und Kamerapositionen eingeführt werden. Dennoch sind diese Methoden nur auf kurze Videos (< 10 Sekunden) anwendbar und erfordern einen Kompromiss zwischen Qualität und Recheneffizienz. Wir schlagen Video Depth Anything für hochwertige, konsistente Tiefenschätzung in sehr langen Videos (über mehrere Minuten) vor, ohne die Effizienz zu beeinträchtigen. Wir basieren unser Modell auf Depth Anything V2 und ersetzen seinen Kopf durch einen effizienten räumlich-zeitlichen Kopf. Wir entwerfen einen einfachen, aber effektiven Verlust für zeitliche Konsistenz, indem wir den zeitlichen Tiefenverlauf einschränken und somit auf zusätzliche geometrische Priors verzichten. Das Modell wird auf einem gemeinsamen Datensatz von Video-Tiefen und unbeschrifteten Bildern trainiert, ähnlich wie bei Depth Anything V2. Darüber hinaus wird eine neuartige Schlüsselbild-basierte Strategie für die Inferenz in langen Videos entwickelt. Experimente zeigen, dass unser Modell auf beliebig langen Videos angewendet werden kann, ohne Qualität, Konsistenz oder Verallgemeinerungsfähigkeit zu beeinträchtigen. Umfassende Bewertungen auf mehreren Video-Benchmarks zeigen, dass unser Ansatz einen neuen Stand der Technik in der Null-Aufnahmen-Video-Tiefenschätzung setzt. Wir bieten Modelle unterschiedlicher Größenordnungen zur Unterstützung einer Vielzahl von Szenarien an, wobei unser kleinstes Modell Echtzeit-Performance mit 30 FPS ermöglicht.
English
Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Summary

AI-Generated Summary

PDF222January 22, 2025