VeGaS : Étalement gaussien vidéo
VeGaS: Video Gaussian Splatting
November 17, 2024
Auteurs: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Résumé
Les Représentations Neuronales Implicites (INRs) utilisent des réseaux neuronaux pour approximer des données discrètes sous forme de fonctions continues. Dans le contexte des données vidéo, de tels modèles peuvent être utilisés pour transformer les coordonnées des emplacements de pixels ainsi que les instants (ou indices) d'apparition des images en valeurs de couleur RVB. Bien que les INRs facilitent une compression efficace, ils ne sont pas adaptés à des fins d'édition. Une solution potentielle consiste à utiliser un modèle basé sur le 3D Gaussian Splatting (3DGS), tel que la Représentation Gaussienne Vidéo (VGR), capable de coder une vidéo sous la forme d'une multitude de Gaussiennes 3D et applicable à de nombreuses opérations de traitement vidéo, y compris l'édition. Néanmoins, dans ce cas, la capacité de modification est limitée à un ensemble restreint de transformations de base. Pour résoudre ce problème, nous introduisons le modèle Video Gaussian Splatting (VeGaS), qui permet des modifications réalistes des données vidéo. Pour construire VeGaS, nous proposons une nouvelle famille de distributions gaussiennes pliées conçues pour capturer les dynamiques non linéaires dans un flux vidéo et modéliser les images consécutives par des Gaussiennes 2D obtenues en tant que distributions conditionnelles respectives. Nos expériences démontrent que VeGaS surpasse les solutions de pointe dans les tâches de reconstruction d'images et permet des modifications réalistes des données vidéo. Le code est disponible sur : https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary