NuiScene: Erforschung der effizienten Generierung unbegrenzter Außenszenen
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
March 20, 2025
Autoren: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI
Zusammenfassung
In diesem Artikel untersuchen wir die Aufgabe, weitläufige Außenszenen zu generieren, die von Burgen bis hin zu Hochhäusern reichen. Im Gegensatz zur Generierung von Innenszenen, die im Fokus früherer Arbeiten stand, stellt die Generierung von Außenszenen einzigartige Herausforderungen dar, darunter große Variationen in der Höhe der Szenen und die Notwendigkeit einer Methode, die in der Lage ist, schnell große Landschaften zu erzeugen. Um dies zu bewältigen, schlagen wir einen effizienten Ansatz vor, der Szenenabschnitte als einheitliche Vektorsätze kodiert, was eine bessere Kompression und Leistung im Vergleich zu den räumlich strukturierten Latents früherer Methoden bietet. Darüber hinaus trainieren wir ein explizites Outpainting-Modell für unbegrenzte Generierung, das im Vergleich zu früheren Resampling-basierten Inpainting-Verfahren eine verbesserte Kohärenz bietet und gleichzeitig die Generierung beschleunigt, indem zusätzliche Diffusionsschritte eliminiert werden. Um diese Aufgabe zu erleichtern, haben wir NuiScene43 kuratiert, eine kleine, aber hochwertige Sammlung von Szenen, die für gemeinsames Training vorverarbeitet wurden. Bemerkenswerterweise kann unser Modell, wenn es mit Szenen verschiedener Stile trainiert wird, unterschiedliche Umgebungen wie ländliche Häuser und städtische Wolkenkratzer innerhalb derselben Szene miteinander verbinden, was das Potenzial unseres Kuratierungsprozesses zur Nutzung heterogener Szenen für gemeinsames Training hervorhebt.
English
In this paper, we explore the task of generating expansive outdoor scenes,
ranging from castles to high-rises. Unlike indoor scene generation, which has
been a primary focus of prior work, outdoor scene generation presents unique
challenges, including wide variations in scene heights and the need for a
method capable of rapidly producing large landscapes. To address this, we
propose an efficient approach that encodes scene chunks as uniform vector sets,
offering better compression and performance than the spatially structured
latents used in prior methods. Furthermore, we train an explicit outpainting
model for unbounded generation, which improves coherence compared to prior
resampling-based inpainting schemes while also speeding up generation by
eliminating extra diffusion steps. To facilitate this task, we curate
NuiScene43, a small but high-quality set of scenes, preprocessed for joint
training. Notably, when trained on scenes of varying styles, our model can
blend different environments, such as rural houses and city skyscrapers, within
the same scene, highlighting the potential of our curation process to leverage
heterogeneous scenes for joint training.Summary
AI-Generated Summary