시티드리머4D: 무제한 4D 도시의 구성 생성 모델
CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities
January 15, 2025
저자: Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
초록
최근 몇 년간 3D 장면 생성이 큰 주목을 받아 왔으며 상당한 진전을 이루었습니다. 4D 도시 생성은 건물과 차량과 같은 구조적으로 복잡하고 시각적으로 다양한 객체들이 존재하며 도시 환경에서 왜곡에 대한 인간의 민감도가 높아 3D 장면보다 더 어려운 과제입니다. 이러한 문제에 대처하기 위해 우리는 4D 도시를 생성하기 위해 특별히 설계된 구성적 생성 모델인 CityDreamer4D를 제안합니다. 우리의 주요 인사이트는 1) 4D 도시 생성은 동적 객체(예: 차량)를 정적 장면(예: 건물 및 도로)과 분리해야 하며, 2) 4D 장면의 모든 객체는 건물, 차량 및 배경 요소에 대한 다른 유형의 신경망 필드로 구성되어야 한다는 것입니다. 구체적으로, 우리는 동적 교통 시나리오 생성기와 무제한 레이아웃 생성기를 제안하여 고도로 간결한 BEV 표현을 사용하여 동적 교통 시나리오와 정적 도시 레이아웃을 생성합니다. 4D 도시의 객체들은 배경 요소, 건물 및 차량을 위한 stuff-oriented 및 instance-oriented 신경망 필드를 결합하여 생성됩니다. 배경 요소와 인스턴스의 특징에 맞게, 신경망 필드는 장면 매개변수화를 위해 맞춤형 생성 해시 그리드와 주기적 위치 임베딩을 사용합니다. 더 나아가, 우리는 OSM, GoogleEarth 및 CityTopia를 포함한 도시 생성을 위한 포괄적인 데이터 세트를 제공합니다. OSM 데이터 세트는 다양한 실제 도시 레이아웃을 제공하며, Google Earth 및 CityTopia 데이터 세트는 3D 인스턴스 주석이 포함된 대규모 고품질 도시 이미지를 제공합니다. 구성적 디자인을 활용하여 CityDreamer4D는 인스턴스 편집, 도시 스타일화 및 도시 시뮬레이션과 같은 하류 응용 프로그램을 지원하면서 현실적인 4D 도시를 생성하는 성능 면에서 최신 기술을 제공합니다.
English
3D scene generation has garnered growing attention in recent years and has
made significant progress. Generating 4D cities is more challenging than 3D
scenes due to the presence of structurally complex, visually diverse objects
like buildings and vehicles, and heightened human sensitivity to distortions in
urban environments. To tackle these issues, we propose CityDreamer4D, a
compositional generative model specifically tailored for generating unbounded
4D cities. Our main insights are 1) 4D city generation should separate dynamic
objects (e.g., vehicles) from static scenes (e.g., buildings and roads), and 2)
all objects in the 4D scene should be composed of different types of neural
fields for buildings, vehicles, and background stuff. Specifically, we propose
Traffic Scenario Generator and Unbounded Layout Generator to produce dynamic
traffic scenarios and static city layouts using a highly compact BEV
representation. Objects in 4D cities are generated by combining stuff-oriented
and instance-oriented neural fields for background stuff, buildings, and
vehicles. To suit the distinct characteristics of background stuff and
instances, the neural fields employ customized generative hash grids and
periodic positional embeddings as scene parameterizations. Furthermore, we
offer a comprehensive suite of datasets for city generation, including OSM,
GoogleEarth, and CityTopia. The OSM dataset provides a variety of real-world
city layouts, while the Google Earth and CityTopia datasets deliver
large-scale, high-quality city imagery complete with 3D instance annotations.
Leveraging its compositional design, CityDreamer4D supports a range of
downstream applications, such as instance editing, city stylization, and urban
simulation, while delivering state-of-the-art performance in generating
realistic 4D cities.Summary
AI-Generated Summary