Flex3D: 유연한 재구성 모델과 입력 뷰 선별을 활용한 피드 포워드 3D 생성
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation
October 1, 2024
저자: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI
초록
텍스트, 단일 이미지 또는 희소한 시야 이미지에서 고품질 3D 콘텐츠를 생성하는 것은 광범위한 응용 분야에서 어려운 작업입니다. 기존 방법은 일반적으로 다중 시야 확산 모델을 사용하여 다중 시야 이미지를 합성한 후 3D 재구성을 위한 피드 포워드 과정을 따릅니다. 그러나 이러한 접근 방식은 종종 소수의 입력 시야로 제한되어 다양한 시점을 포착하는 능력이 제한되며, 더 나쁜 경우에는 합성된 시야가 저품질이면 최적이 아닌 생성 결과를 초래할 수 있습니다. 이러한 한계를 해결하기 위해 우리는 임의의 고품질 입력 시야를 활용할 수 있는 새로운 두 단계 프레임워크인 Flex3D를 제안합니다. 첫 번째 단계는 후보 뷰 생성 및 선별 파이프라인으로 구성됩니다. 세밀하게 조정된 다중 시야 이미지 확산 모델과 비디오 확산 모델을 사용하여 후보 뷰 풀을 생성하여 대상 3D 객체의 풍부한 표현을 가능하게 합니다. 이후 뷰 선택 파이프라인은 품질과 일관성에 따라 이러한 뷰를 필터링하여 재구성에 사용되는 고품질이고 신뢰할 수 있는 뷰만 사용되도록 보장합니다. 두 번째 단계에서 선별된 뷰는 임의의 입력을 효과적으로 처리할 수 있는 트랜스포머 아키텍처를 기반으로 구축된 유연한 재구성 모델 (FlexRM)에 공급됩니다. FlemRM은 트라이-플레인 표현을 활용하여 3D 가우시안 포인트를 직접 출력하여 효율적이고 상세한 3D 생성을 가능하게 합니다. 디자인 및 교육 전략을 철저히 탐색하여 FlexRM을 최적화하여 재구성 및 생성 작업 모두에서 우수한 성능을 달성합니다. 결과는 Flex3D가 최신 피드 포워드 3D 생성 모델 중 몇 가지와 비교했을 때 3D 생성 작업에서 92% 이상의 승률을 차지하여 최고 수준의 성능을 달성함을 보여줍니다.
English
Generating high-quality 3D content from text, single images, or sparse view
images remains a challenging task with broad applications.Existing methods
typically employ multi-view diffusion models to synthesize multi-view images,
followed by a feed-forward process for 3D reconstruction. However, these
approaches are often constrained by a small and fixed number of input views,
limiting their ability to capture diverse viewpoints and, even worse, leading
to suboptimal generation results if the synthesized views are of poor quality.
To address these limitations, we propose Flex3D, a novel two-stage framework
capable of leveraging an arbitrary number of high-quality input views. The
first stage consists of a candidate view generation and curation pipeline. We
employ a fine-tuned multi-view image diffusion model and a video diffusion
model to generate a pool of candidate views, enabling a rich representation of
the target 3D object. Subsequently, a view selection pipeline filters these
views based on quality and consistency, ensuring that only the high-quality and
reliable views are used for reconstruction. In the second stage, the curated
views are fed into a Flexible Reconstruction Model (FlexRM), built upon a
transformer architecture that can effectively process an arbitrary number of
inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane
representation, enabling efficient and detailed 3D generation. Through
extensive exploration of design and training strategies, we optimize FlexRM to
achieve superior performance in both reconstruction and generation tasks. Our
results demonstrate that Flex3D achieves state-of-the-art performance, with a
user study winning rate of over 92% in 3D generation tasks when compared to
several of the latest feed-forward 3D generative models.Summary
AI-Generated Summary