VeGaS: Video-Gauß-Splatting

VeGaS: Video Gaussian Splatting

November 17, 2024
Autoren: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

Zusammenfassung

Implizite neuronale Repräsentationen (INRs) verwenden neuronale Netzwerke, um diskrete Daten als kontinuierliche Funktionen anzunähern. Im Kontext von Videodaten können solche Modelle genutzt werden, um die Koordinaten von Pixelpositionen zusammen mit den Zeitpunkten (oder Indizes) des Auftretens von Frames in RGB-Farbwerte umzuwandeln. Obwohl INRs eine effektive Kompression ermöglichen, sind sie für Bearbeitungszwecke ungeeignet. Eine mögliche Lösung besteht darin, ein auf 3D-Gauß-Splatting (3DGS) basierendes Modell zu verwenden, wie z.B. die Video-Gauß-Repräsentation (VGR), die in der Lage ist, Videos als Vielzahl von 3D-Gaußschen zu kodieren und für zahlreiche Videobearbeitungsvorgänge, einschließlich Bearbeitung, geeignet ist. Dennoch ist in diesem Fall die Möglichkeit zur Änderung auf einen begrenzten Satz von Grundtransformationen beschränkt. Um dieses Problem zu lösen, führen wir das Video-Gauß-Splatting (VeGaS)-Modell ein, das realistische Modifikationen von Videodaten ermöglicht. Zur Konstruktion von VeGaS schlagen wir eine neuartige Familie von gefalteten Gauß-Verteilungen vor, die entwickelt wurden, um nichtlineare Dynamiken in einem Videostream zu erfassen und aufeinanderfolgende Frames durch 2D-Gaußsche zu modellieren, die als jeweilige bedingte Verteilungen erhalten werden. Unsere Experimente zeigen, dass VeGaS in Aufgaben zur Frame-Rekonstruktion die Lösungen auf dem neuesten Stand der Technik übertrifft und realistische Modifikationen von Videodaten ermöglicht. Der Code ist verfügbar unter: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF52November 19, 2024