VeGaS : Étalement gaussien vidéo

VeGaS: Video Gaussian Splatting

November 17, 2024
Auteurs: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

Résumé

Les Représentations Neuronales Implicites (INRs) utilisent des réseaux neuronaux pour approximer des données discrètes sous forme de fonctions continues. Dans le contexte des données vidéo, de tels modèles peuvent être utilisés pour transformer les coordonnées des emplacements de pixels ainsi que les instants (ou indices) d'apparition des images en valeurs de couleur RVB. Bien que les INRs facilitent une compression efficace, ils ne sont pas adaptés à des fins d'édition. Une solution potentielle consiste à utiliser un modèle basé sur le 3D Gaussian Splatting (3DGS), tel que la Représentation Gaussienne Vidéo (VGR), capable de coder une vidéo sous la forme d'une multitude de Gaussiennes 3D et applicable à de nombreuses opérations de traitement vidéo, y compris l'édition. Néanmoins, dans ce cas, la capacité de modification est limitée à un ensemble restreint de transformations de base. Pour résoudre ce problème, nous introduisons le modèle Video Gaussian Splatting (VeGaS), qui permet des modifications réalistes des données vidéo. Pour construire VeGaS, nous proposons une nouvelle famille de distributions gaussiennes pliées conçues pour capturer les dynamiques non linéaires dans un flux vidéo et modéliser les images consécutives par des Gaussiennes 2D obtenues en tant que distributions conditionnelles respectives. Nos expériences démontrent que VeGaS surpasse les solutions de pointe dans les tâches de reconstruction d'images et permet des modifications réalistes des données vidéo. Le code est disponible sur : https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF52November 19, 2024