비디오 모델 없는 비디오 깊이
Video Depth without Video Models
November 28, 2024
저자: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
초록
동영상 깊이 추정은 모노클 동영상 클립을 3D로 끌어올려 각 프레임에서 밀도 있는 깊이를 추론합니다. 대형 기반 모델의 등장과 합성 훈련 데이터의 사용으로 인해 최근에는 단일 이미지 깊이 추정 기술이 발전하면서 동영상 깊이에 대한 관심이 새롭게 불붙었습니다. 그러나 동영상의 각 프레임에 단일 이미지 깊이 추정기를 단순히 적용하는 것은 시간적 연속성을 무시하며 깜박임을 초래할 뿐만 아니라 카메라 움직임으로 인해 깊이 범위에 급격한 변화가 발생할 수 있습니다. 명백하고 원칙적인 해결책은 동영상 기반 모델을 기반으로 구축하는 것이지만, 이러한 모델은 비용이 많이 들고 훈련 및 추론이 불완전하며 고정 길이(짧은) 출력에 대한 스티칭 루틴이 포함되어 있습니다. 우리는 한 걸음 물러나 단일 이미지 잠재 확산 모델(LDM)을 최첨단 동영상 깊이 추정기로 변환하는 방법을 보여줍니다. 우리가 RollingDepth라고 부르는 이 모델은 두 가지 주요 구성 요소를 갖추고 있습니다: (i) 단일 이미지 LDM에서 파생된 다중 프레임 깊이 추정기로 매우 짧은 동영상 스니펫(일반적으로 프레임 삼쌍)을 깊이 스니펫으로 매핑합니다. (ii) 다양한 프레임 속도에서 샘플링된 깊이 스니펫을 일관된 동영상으로 최적으로 조립하는 강력한 최적화 기반 등록 알고리즘입니다. RollingDepth는 수백 프레임의 긴 동영상을 효율적으로 처리하고 전용 동영상 깊이 추정기 및 고성능 단일 프레임 모델보다 더 정확한 깊이 동영상을 제공합니다. 프로젝트 페이지: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary