VeGaS: Sputtering Gaussiano Video

VeGaS: Video Gaussian Splatting

November 17, 2024
Autori: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

Abstract

Le Rappresentazioni Neurali Implicite (INR) impiegano reti neurali per approssimare dati discreti come funzioni continue. Nel contesto dei dati video, tali modelli possono essere utilizzati per trasformare le coordinate delle posizioni dei pixel insieme ai tempi (o indici) di comparsa dei frame in valori di colore RGB. Sebbene gli INR facilitino una compressione efficace, non sono adatti per scopi di editing. Una soluzione potenziale è utilizzare un modello basato su Splatting Gaussiano 3D (3DGS), come la Rappresentazione Gaussiana Video (VGR), in grado di codificare video come una moltitudine di Gaussiane 3D ed è applicabile per numerose operazioni di elaborazione video, compreso l'editing. Tuttavia, in questo caso, la capacità di modifica è limitata a un insieme limitato di trasformazioni di base. Per affrontare questo problema, introduciamo il modello Video Gaussian Splatting (VeGaS), che consente modifiche realistiche dei dati video. Per costruire VeGaS, proponiamo una nuova famiglia di distribuzioni Gaussiane Pieghevoli progettate per catturare dinamiche non lineari in uno stream video e modellare frame consecutivi tramite Gaussiane 2D ottenute come rispettive distribuzioni condizionali. I nostri esperimenti dimostrano che VeGaS supera le soluzioni all'avanguardia nei compiti di ricostruzione dei frame e consente modifiche realistiche dei dati video. Il codice è disponibile su: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF52November 19, 2024