ChatPaper.aiChatPaper

캐주얼 비디오를 통한 빠른 인코더 기반 3D: 포인트 트랙 처리를 통해

Fast Encoder-Based 3D from Casual Videos via Point Track Processing

April 10, 2024
저자: Yoni Kasten, Wuyue Lu, Haggai Maron
cs.AI

초록

본 논문은 동적 콘텐츠를 포함하는 비디오로부터 3D 구조를 재구성하는 오랜 과제에 대해 다룹니다. 현재 이 문제에 대한 접근 방식은 표준 카메라로 녹화된 일반적인 비디오에서 작동하도록 설계되지 않았거나 최적화 시간이 오래 걸리는 특징이 있습니다. 이전 방법의 효율성을 크게 향상시키기 위해, 우리는 TracksTo4D를 제안합니다. 이는 단일 효율적인 피드포워드 패스를 사용하여 일반적인 비디오로부터 유래한 동적 콘텐츠로부터 3D 구조와 카메라 위치를 추론할 수 있는 학습 기반 접근 방식입니다. 이를 위해 우리는 입력으로 2D 포인트 트랙을 직접 처리하고 2D 포인트 트랙을 처리하기 위해 설계된 아키텍처를 제안합니다. 우리의 제안된 아키텍처는 두 가지 주요 원칙을 고려하여 설계되었습니다: (1) 입력 포인트 트랙 데이터에 내재된 대칭성을 고려하며, (2) 이동 패턴이 저랭크 근사치를 사용하여 효과적으로 표현될 수 있다고 가정합니다. TracksTo4D는 일반적인 비디오 데이터셋에서 2D 포인트 트랙만을 활용하여 비지도 방식으로 훈련되며, 어떠한 3D 지도도 사용하지 않습니다. 실험 결과, TracksTo4D가 최신 기법과 유사한 정확도로 기존 비디오의 시간적 포인트 클라우드와 카메라 위치를 재구성할 수 있음과 동시에 실행 시간을 최대 95%까지 줄일 수 있다는 것을 보여줍니다. 또한 TracksTo4D가 추론 시에 보이지 않는 의미 범주의 새로운 비디오에 대해 잘 일반화된다는 것을 보여줍니다.
English
This paper addresses the long-standing challenge of reconstructing 3D structures from videos with dynamic content. Current approaches to this problem were not designed to operate on casual videos recorded by standard cameras or require a long optimization time. Aiming to significantly improve the efficiency of previous approaches, we present TracksTo4D, a learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from casual videos using a single efficient feed-forward pass. To achieve this, we propose operating directly over 2D point tracks as input and designing an architecture tailored for processing 2D point tracks. Our proposed architecture is designed with two key principles in mind: (1) it takes into account the inherent symmetries present in the input point tracks data, and (2) it assumes that the movement patterns can be effectively represented using a low-rank approximation. TracksTo4D is trained in an unsupervised way on a dataset of casual videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments show that TracksTo4D can reconstruct a temporal point cloud and camera positions of the underlying video with accuracy comparable to state-of-the-art methods, while drastically reducing runtime by up to 95\%. We further show that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time.

Summary

AI-Generated Summary

PDF42February 3, 2025