Difix3D+: Улучшение 3D-реконструкций с помощью одношаговых диффузионных моделей
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
Авторы: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
Аннотация
Нейронные поля излучения (NeRF) и 3D-гауссовское размытие (3D Gaussian Splatting) произвели революцию в задачах 3D-реконструкции и синтеза новых ракурсов. Однако достижение фотореалистичного рендеринга с экстремальных новых точек зрения остается сложной задачей, так как артефакты сохраняются в различных представлениях. В данной работе мы представляем Difix3D+, новый подход, предназначенный для улучшения 3D-реконструкции и синтеза новых ракурсов с использованием одношаговых диффузионных моделей. В основе нашего метода лежит Difix — одношаговая диффузионная модель изображений, обученная улучшать и удалять артефакты в рендеринге новых ракурсов, вызванные недостаточно ограниченными областями 3D-представления. Difix выполняет две ключевые функции в нашем подходе. Во-первых, он используется на этапе реконструкции для очистки псевдо-обучающих ракурсов, которые рендерятся из реконструкции и затем дистиллируются обратно в 3D. Это значительно улучшает недостаточно ограниченные области и повышает общее качество 3D-представления. Что еще важнее, Difix также выступает в роли нейронного усилителя на этапе вывода, эффективно устраняя остаточные артефакты, возникающие из-за несовершенного 3D-надзора и ограниченных возможностей современных моделей реконструкции. Difix3D+ является универсальным решением — одной моделью, совместимой как с NeRF, так и с 3DGS представлениями, и обеспечивает в среднем двукратное улучшение показателя FID по сравнению с базовыми методами, сохраняя при этом 3D-согласованность.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary