VeGaS: Video-Gauß-Splatting
VeGaS: Video Gaussian Splatting
November 17, 2024
Autoren: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Zusammenfassung
Implizite neuronale Repräsentationen (INRs) verwenden neuronale Netzwerke, um diskrete Daten als kontinuierliche Funktionen anzunähern. Im Kontext von Videodaten können solche Modelle genutzt werden, um die Koordinaten von Pixelpositionen zusammen mit den Zeitpunkten (oder Indizes) des Auftretens von Frames in RGB-Farbwerte umzuwandeln. Obwohl INRs eine effektive Kompression ermöglichen, sind sie für Bearbeitungszwecke ungeeignet. Eine mögliche Lösung besteht darin, ein auf 3D-Gauß-Splatting (3DGS) basierendes Modell zu verwenden, wie z.B. die Video-Gauß-Repräsentation (VGR), die in der Lage ist, Videos als Vielzahl von 3D-Gaußschen zu kodieren und für zahlreiche Videobearbeitungsvorgänge, einschließlich Bearbeitung, geeignet ist. Dennoch ist in diesem Fall die Möglichkeit zur Änderung auf einen begrenzten Satz von Grundtransformationen beschränkt. Um dieses Problem zu lösen, führen wir das Video-Gauß-Splatting (VeGaS)-Modell ein, das realistische Modifikationen von Videodaten ermöglicht. Zur Konstruktion von VeGaS schlagen wir eine neuartige Familie von gefalteten Gauß-Verteilungen vor, die entwickelt wurden, um nichtlineare Dynamiken in einem Videostream zu erfassen und aufeinanderfolgende Frames durch 2D-Gaußsche zu modellieren, die als jeweilige bedingte Verteilungen erhalten werden. Unsere Experimente zeigen, dass VeGaS in Aufgaben zur Frame-Rekonstruktion die Lösungen auf dem neuesten Stand der Technik übertrifft und realistische Modifikationen von Videodaten ermöglicht. Der Code ist verfügbar unter: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary