A Ordem das Sequências Importa: Aproveitando Modelos de Vídeo na Super-Resolução 3D

Sequence Matters: Harnessing Video Models in 3D Super-Resolution

December 16, 2024
Autores: Hyun-kyu Ko, Dongheok Park, Youngin Park, Byeonghyeon Lee, Juhee Han, Eunbyung Park
cs.AI

Resumo

A super-resolução 3D tem como objetivo reconstruir modelos 3D de alta fidelidade a partir de imagens de várias vistas de baixa resolução (LR). Estudos iniciais focavam principalmente em modelos de super-resolução de imagem única (SISR) para aumentar a resolução de imagens LR em imagens de alta resolução. No entanto, esses métodos frequentemente carecem de consistência de vista, pois operam de forma independente em cada imagem. Embora várias técnicas de pós-processamento tenham sido exploradas extensivamente para mitigar essas inconsistências, estas ainda não resolveram completamente os problemas. Neste artigo, realizamos um estudo abrangente de super-resolução 3D aproveitando modelos de super-resolução de vídeo (VSR). Ao utilizar modelos VSR, garantimos um maior grau de consistência espacial e podemos fazer referência a informações espaciais circundantes, resultando em reconstruções mais precisas e detalhadas. Nossas descobertas revelam que os modelos VSR podem ter um desempenho notável mesmo em sequências que carecem de alinhamento espacial preciso. Com base nessa observação, propomos uma abordagem simples, porém prática, para alinhar imagens LR sem envolver ajustes finos ou gerar uma trajetória 'suave' a partir dos modelos 3D treinados sobre imagens LR. Os resultados experimentais mostram que algoritmos surpreendentemente simples podem alcançar os melhores resultados em tarefas de super-resolução 3D em conjuntos de dados de referência padrão, como os conjuntos de dados NeRF-sintético e MipNeRF-360. Página do projeto: https://ko-lani.github.io/Sequence-Matters
English
3D super-resolution aims to reconstruct high-fidelity 3D models from low-resolution (LR) multi-view images. Early studies primarily focused on single-image super-resolution (SISR) models to upsample LR images into high-resolution images. However, these methods often lack view consistency because they operate independently on each image. Although various post-processing techniques have been extensively explored to mitigate these inconsistencies, they have yet to fully resolve the issues. In this paper, we perform a comprehensive study of 3D super-resolution by leveraging video super-resolution (VSR) models. By utilizing VSR models, we ensure a higher degree of spatial consistency and can reference surrounding spatial information, leading to more accurate and detailed reconstructions. Our findings reveal that VSR models can perform remarkably well even on sequences that lack precise spatial alignment. Given this observation, we propose a simple yet practical approach to align LR images without involving fine-tuning or generating 'smooth' trajectory from the trained 3D models over LR images. The experimental results show that the surprisingly simple algorithms can achieve the state-of-the-art results of 3D super-resolution tasks on standard benchmark datasets, such as the NeRF-synthetic and MipNeRF-360 datasets. Project page: https://ko-lani.github.io/Sequence-Matters

Summary

AI-Generated Summary

PDF102December 23, 2024