VeGaS: 비디오 가우시안 스플래팅
VeGaS: Video Gaussian Splatting
November 17, 2024
저자: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
초록
암묵적 신경 표현 (INRs)은 신경망을 사용하여 이산 데이터를 연속 함수로 근사하는 기술입니다. 비디오 데이터의 경우, 이러한 모델은 픽셀 위치의 좌표를 프레임 발생 시간(또는 인덱스)과 함께 RGB 색상 값으로 변환하는 데 활용될 수 있습니다. INRs은 효율적인 압축을 가능케 하지만 편집 목적으로는 적합하지 않습니다. 한 가지 해결책은 비디오를 다수의 3D 가우시안으로 인코딩할 수 있는 Video Gaussian Representation (VGR)과 같은 3D 가우시안 스플래팅 (3DGS) 기반 모델을 사용하는 것입니다. 이 모델은 편집을 포함한 다양한 비디오 처리 작업에 적용할 수 있습니다. 그러나 이 경우 수정 가능성은 제한된 기본 변환 세트로 제한됩니다. 이 문제를 해결하기 위해 비디오 가우시안 스플래팅 (VeGaS) 모델을 소개합니다. VeGaS를 구축하기 위해 비디오 스트림의 비선형 동역학을 포착하기 위해 설계된 새로운 폴딩 가우시안 분포 패밀리를 제안하고, 각각의 조건부 분포로 얻은 2D 가우시안을 사용하여 연속된 프레임을 모델링합니다. 실험 결과, VeGaS가 프레임 재구성 작업에서 최신 기술 솔루션을 능가하고 비디오 데이터의 현실적인 수정을 가능케 한다는 것을 입증했습니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary