Global-Lokale Baumsuche für sprachgesteuerte 3D-Szenengenerierung
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Autoren: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (VLMs), wie GPT-4, haben bemerkenswerte Erfolge in verschiedenen Bereichen erzielt. Es gibt jedoch nur wenige Studien zur 3D-Innenraumgenerierung mit VLMs. Diese Arbeit betrachtet diese Aufgabe als ein Planungsproblem, das räumlichen und Layout-Gesundheitsbeschränkungen unterliegt. Um das Problem mit einem VLM zu lösen, schlagen wir einen neuen global-lokalen Baum-Suchalgorithmus vor. Global platziert die Methode jedes Objekt sequenziell und untersucht mehrere Platzierungen während jedes Platzierungsprozesses, wobei der Problemraum als Baum dargestellt wird. Um die Tiefe des Baums zu reduzieren, zerlegen wir die Szenenstruktur hierarchisch, d.h. auf Raumebene, Regionsebene, Bodenobjektebene und unterstützter Objektebene. Der Algorithmus generiert unabhängig die Bodenobjekte in verschiedenen Regionen und unterstützte Objekte, die auf verschiedenen Bodenobjekten platziert werden. Lokal zerlegen wir auch die Teilaufgabe, die Platzierung jedes Objekts, in mehrere Schritte. Der Algorithmus durchsucht den Baum des Problemraums. Um das VLM-Modell zu nutzen, um Positionen von Objekten zu erzeugen, diskretisieren wir die Draufsicht als ein dichtes Raster und füllen jede Zelle mit verschiedenen Emojis, um die Zellen unterscheidbar zu machen. Wir geben dem VLM das Emoji-Raster vor, und das VLM erzeugt eine sinnvolle Position für das Objekt, indem es die Position mit den Namen der Emojis beschreibt. Die quantitativen und qualitativen experimentellen Ergebnisse zeigen, dass unser Ansatz plausiblere 3D-Szenen erzeugt als state-of-the-art Ansätze. Unser Quellcode ist verfügbar unter https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .Summary
AI-Generated Summary