VeGaS: Sputtering Gaussiano Video
VeGaS: Video Gaussian Splatting
November 17, 2024
Autori: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Abstract
Le Rappresentazioni Neurali Implicite (INR) impiegano reti neurali per approssimare dati discreti come funzioni continue. Nel contesto dei dati video, tali modelli possono essere utilizzati per trasformare le coordinate delle posizioni dei pixel insieme ai tempi (o indici) di comparsa dei frame in valori di colore RGB. Sebbene gli INR facilitino una compressione efficace, non sono adatti per scopi di editing. Una soluzione potenziale è utilizzare un modello basato su Splatting Gaussiano 3D (3DGS), come la Rappresentazione Gaussiana Video (VGR), in grado di codificare video come una moltitudine di Gaussiane 3D ed è applicabile per numerose operazioni di elaborazione video, compreso l'editing. Tuttavia, in questo caso, la capacità di modifica è limitata a un insieme limitato di trasformazioni di base. Per affrontare questo problema, introduciamo il modello Video Gaussian Splatting (VeGaS), che consente modifiche realistiche dei dati video. Per costruire VeGaS, proponiamo una nuova famiglia di distribuzioni Gaussiane Pieghevoli progettate per catturare dinamiche non lineari in uno stream video e modellare frame consecutivi tramite Gaussiane 2D ottenute come rispettive distribuzioni condizionali. I nostri esperimenti dimostrano che VeGaS supera le soluzioni all'avanguardia nei compiti di ricostruzione dei frame e consente modifiche realistiche dei dati video. Il codice è disponibile su: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary