CityDreamer4D: Modelo Generativo Composicional de Cidades 4D Ilimitadas

CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

January 15, 2025
Autores: Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI

Resumo

A geração de cenas 3D tem recebido crescente atenção nos últimos anos e feito progressos significativos. Gerar cidades 4D é mais desafiador do que cenas 3D devido à presença de objetos estruturalmente complexos e visualmente diversos, como edifícios e veículos, e à sensibilidade humana aumentada a distorções em ambientes urbanos. Para lidar com essas questões, propomos o CityDreamer4D, um modelo generativo compositivo especificamente projetado para gerar cidades 4D ilimitadas. Nossas principais percepções são: 1) a geração de cidades 4D deve separar objetos dinâmicos (por exemplo, veículos) de cenas estáticas (por exemplo, edifícios e estradas), e 2) todos os objetos na cena 4D devem ser compostos por diferentes tipos de campos neurais para edifícios, veículos e elementos de fundo. Especificamente, propomos o Gerador de Cenários de Tráfego e o Gerador de Layout Ilimitado para produzir cenários de tráfego dinâmicos e layouts de cidade estáticos usando uma representação BEV altamente compacta. Objetos em cidades 4D são gerados combinando campos neurais orientados para elementos de fundo e orientados para instâncias para elementos de fundo, edifícios e veículos. Para se adequarem às características distintas de elementos de fundo e instâncias, os campos neurais empregam grades de hash generativas personalizadas e incrustações posicionais periódicas como parametrizações de cena. Além disso, oferecemos uma ampla gama de conjuntos de dados para geração de cidades, incluindo OSM, Google Earth e CityTopia. O conjunto de dados OSM fornece uma variedade de layouts de cidades do mundo real, enquanto os conjuntos de dados do Google Earth e CityTopia oferecem imagens de cidades em larga escala e de alta qualidade completas com anotações de instâncias 3D. Aproveitando seu design compositivo, o CityDreamer4D suporta uma variedade de aplicações downstream, como edição de instâncias, estilização de cidades e simulação urbana, ao mesmo tempo que oferece um desempenho de ponta na geração de cidades 4D realistas.
English
3D scene generation has garnered growing attention in recent years and has made significant progress. Generating 4D cities is more challenging than 3D scenes due to the presence of structurally complex, visually diverse objects like buildings and vehicles, and heightened human sensitivity to distortions in urban environments. To tackle these issues, we propose CityDreamer4D, a compositional generative model specifically tailored for generating unbounded 4D cities. Our main insights are 1) 4D city generation should separate dynamic objects (e.g., vehicles) from static scenes (e.g., buildings and roads), and 2) all objects in the 4D scene should be composed of different types of neural fields for buildings, vehicles, and background stuff. Specifically, we propose Traffic Scenario Generator and Unbounded Layout Generator to produce dynamic traffic scenarios and static city layouts using a highly compact BEV representation. Objects in 4D cities are generated by combining stuff-oriented and instance-oriented neural fields for background stuff, buildings, and vehicles. To suit the distinct characteristics of background stuff and instances, the neural fields employ customized generative hash grids and periodic positional embeddings as scene parameterizations. Furthermore, we offer a comprehensive suite of datasets for city generation, including OSM, GoogleEarth, and CityTopia. The OSM dataset provides a variety of real-world city layouts, while the Google Earth and CityTopia datasets deliver large-scale, high-quality city imagery complete with 3D instance annotations. Leveraging its compositional design, CityDreamer4D supports a range of downstream applications, such as instance editing, city stylization, and urban simulation, while delivering state-of-the-art performance in generating realistic 4D cities.

Summary

AI-Generated Summary

PDF162January 16, 2025