ChatPaper.aiChatPaper

비디오 깊이 모든 것: 초장 시간 비디오를 위한 일관된 깊이 추정

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

January 21, 2025
저자: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI

초록

Depth Anything는 단안 깊이 추정에서 뛰어난 성과를 거두었으며 강력한 일반화 능력을 갖추고 있습니다. 그러나 비디오에서 시간적 불일치로 인해 실용적인 응용이 제약을 받고 있습니다. 비디오 생성 모델을 활용하거나 광학 흐름과 카메라 포즈로부터 사전 정보를 도입함으로써 이 문제를 완화하기 위한 다양한 방법이 제안되었습니다. 그러나 이러한 방법은 짧은 비디오(< 10초)에만 적용 가능하며 품질과 계산 효율성 사이의 교환을 필요로 합니다. 저희는 효율성을 희생하지 않고 초장기 비디오(수 분 이상)에서 고품질이고 일관된 깊이 추정을 위한 비디오 깊이 모델을 제안합니다. 저희는 Depth Anything V2를 기반으로 하고 효율적인 공간-시간 헤드로 그 헤드를 대체합니다. 시간적 일관성 손실을 통해 간단하면서도 효과적인 시간적 일관성 손실을 설계함으로써 시간적 깊이 그라디언트를 제약하여 추가 기하학적 사전 정보가 필요 없게 합니다. 모델은 비디오 깊이와 라벨이 없는 이미지의 공동 데이터셋에서 훈련되며, Depth Anything V2와 유사합니다. 게다가, 장기 비디오 추론을 위해 새로운 키프레임 기반 전략이 개발되었습니다. 실험 결과, 저희 모델은 품질, 일관성 또는 일반화 능력을 희생하지 않고 임의로 긴 비디오에 적용될 수 있음을 보여줍니다. 여러 비디오 벤치마크에서의 포괄적인 평가는 저희 접근 방식이 제로샷 비디오 깊이 추정에서 새로운 최첨단을 세웠음을 입증합니다. 다양한 시나리오를 지원하기 위해 다양한 규모의 모델을 제공하며, 가장 작은 모델은 30 FPS의 실시간 성능을 제공할 수 있습니다.
English
Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Summary

AI-Generated Summary

PDF222January 22, 2025