SyntheOcc: 3D 시맨틱 MPI를 통해 기하학 제어된 거리뷰 이미지를 합성합니다.
SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs
October 1, 2024
저자: Leheng Li, Weichao Qiu, Yingjie Cai, Xu Yan, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
초록
자율 주행 기술의 발전은 점점 더 높은 품질의 주석이 달린 데이터셋에 의존하고 있는데, 특히 3D 점유 예측 작업에서는 밀도 높은 3D 주석이 필요하여 상당한 인간 노력이 필요합니다. 본 논문에서는 주행 시나리오에서 점유 레이블을 조건부로 사용하여 사실적이고 기하학적으로 제어된 이미지를 합성하는 확산 모델인 SyntheOcc를 제안합니다. 이를 통해 인식 모델 및 시뮬레이션을 위한 훈련과 같은 응용 프로그램에 대한 다양하고 주석이 달린 조절 가능한 데이터셋을 무제한으로 생성할 수 있습니다. SyntheOcc는 어떻게 3D 기하 정보를 효율적으로 2D 확산 모델의 조건부 입력으로 인코딩하는지에 대한 중요한 도전 과제를 해결합니다. 접근 방식은 혁신적으로 3D 의미론적 다중 평면 이미지(MPIs)를 통합하여 포괄적이고 공간적으로 정렬된 3D 장면 설명을 제공합니다. 결과적으로 SyntheOcc는 주어진 기하학적 레이블(3D 복셀 공간의 의미론)과 정확하게 일치하는 사실적인 다중 뷰 이미지 및 비디오를 생성할 수 있습니다. nuScenes 데이터셋에서의 SyntheOcc의 광범위한 질적 및 양적 평가는 인식 모델에 대한 효과적인 데이터 증강으로 작용하는 조절 가능한 점유 데이터셋 생성의 효과를 입증합니다.
English
The advancement of autonomous driving is increasingly reliant on high-quality
annotated datasets, especially in the task of 3D occupancy prediction, where
the occupancy labels require dense 3D annotation with significant human effort.
In this paper, we propose SyntheOcc, which denotes a diffusion model that
Synthesize photorealistic and geometric-controlled images by conditioning
Occupancy labels in driving scenarios. This yields an unlimited amount of
diverse, annotated, and controllable datasets for applications like training
perception models and simulation. SyntheOcc addresses the critical challenge of
how to efficiently encode 3D geometric information as conditional input to a 2D
diffusion model. Our approach innovatively incorporates 3D semantic multi-plane
images (MPIs) to provide comprehensive and spatially aligned 3D scene
descriptions for conditioning. As a result, SyntheOcc can generate
photorealistic multi-view images and videos that faithfully align with the
given geometric labels (semantics in 3D voxel space). Extensive qualitative and
quantitative evaluations of SyntheOcc on the nuScenes dataset prove its
effectiveness in generating controllable occupancy datasets that serve as an
effective data augmentation to perception models.Summary
AI-Generated Summary