Video Diepte Alles: Consistente Diepteschatting voor Super Lange Video's

Samenvatting

Depth Anything heeft opmerkelijk succes behaald in het schatten van diepte met behulp van monoculaire diepteschatting met sterke generalisatievermogen. Het lijdt echter aan temporele inconsistentie in video's, wat de praktische toepassingen belemmert. Diverse methoden zijn voorgesteld om dit probleem te verlichten door gebruik te maken van video-generatiemodellen of door prior-kennis van optische stroming en cameraposities te introduceren. Desalniettemin zijn deze methoden alleen toepasbaar op korte video's (< 10 seconden) en vereisen ze een afweging tussen kwaliteit en rekenkundige efficiëntie. Wij stellen Video Depth Anything voor voor hoogwaardige, consistente diepteschatting in superlange video's (van enkele minuten) zonder efficiëntie op te offeren. We baseren ons model op Depth Anything V2 en vervangen de kop ervan door een efficiënte ruimtelijk-temporele kop. We ontwerpen een eenvoudige maar effectieve verliesfunctie voor temporele consistentie door de temporele dieptegradient te beperken, waardoor de noodzaak voor extra geometrische prior-kennis wordt geëlimineerd. Het model wordt getraind op een gezamenlijke dataset van video-diepte en ongelabelde afbeeldingen, vergelijkbaar met Depth Anything V2. Bovendien is een nieuwe strategie op basis van keyframes ontwikkeld voor inferentie in lange video's. Experimenten tonen aan dat ons model kan worden toegepast op willekeurig lange video's zonder concessies te doen aan kwaliteit, consistentie of generalisatievermogen. Uitgebreide evaluaties op meerdere videobenchmarks tonen aan dat onze aanpak een nieuwe state-of-the-art neerzet in zero-shot video-diepteschatting. We bieden modellen van verschillende schalen aan om een reeks scenario's te ondersteunen, waarbij ons kleinste model in staat is tot realtime prestaties met 30 FPS.

English

Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Video Diepte Alles: Consistente Diepteschatting voor Super Lange Video's

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Samenvatting

Summary

Support