MetaSpatial: Stärkung des räumlichen 3D-Verständnisses in VLMs für das Metaversum

Zusammenfassung

Wir präsentieren MetaSpatial, das erste auf Reinforcement Learning (RL) basierende Framework, das entwickelt wurde, um das 3D-räumliche Denken in Vision-Language-Modellen (VLMs) zu verbessern und die Echtzeit-Generierung von 3D-Szenen ohne die Notwendigkeit von hartkodierten Optimierungen zu ermöglichen. MetaSpatial adressiert zwei zentrale Herausforderungen: (i) das Fehlen von internalisiertem 3D-räumlichem Denken in VLMs, was ihre Fähigkeit einschränkt, realistische Layouts zu generieren, und (ii) die Ineffizienz des traditionellen überwachten Feinabstimmens (SFT) für Layout-Generierungsaufgaben, da perfekte Ground-Truth-Annotationen nicht verfügbar sind. Unsere Schlüsselinnovation ist ein mehrstufiger RL-basierter Optimierungsmechanismus, der physikbewusste Einschränkungen und gerenderte Bildbewertungen integriert, um sicherzustellen, dass die generierten 3D-Layouts kohärent, physikalisch plausibel und ästhetisch konsistent sind. Methodisch führt MetaSpatial einen adaptiven, iterativen Denkprozess ein, bei dem das VLM räumliche Anordnungen über mehrere Stufen hinweg verfeinert, indem es gerenderte Ausgaben analysiert und die Szenenkohärenz schrittweise verbessert. Empirische Auswertungen zeigen, dass MetaSpatial die räumliche Konsistenz und Formatierungsstabilität verschiedener Skalenmodelle signifikant verbessert. Nach dem Training sind Objektplatzierungen realistischer, ausgerichtet und funktional kohärenter, was die Wirksamkeit von RL für 3D-räumliches Denken in Anwendungen wie Metaverse, AR/VR, digitalen Zwillingen und Spielentwicklung bestätigt. Unser Code, Daten und Trainingspipeline sind öffentlich unter https://github.com/PzySeere/MetaSpatial verfügbar.

English

We present MetaSpatial, the first reinforcement learning (RL)-based framework designed to enhance 3D spatial reasoning in vision-language models (VLMs), enabling real-time 3D scene generation without the need for hard-coded optimizations. MetaSpatial addresses two core challenges: (i) the lack of internalized 3D spatial reasoning in VLMs, which limits their ability to generate realistic layouts, and (ii) the inefficiency of traditional supervised fine-tuning (SFT) for layout generation tasks, as perfect ground truth annotations are unavailable. Our key innovation is a multi-turn RL-based optimization mechanism that integrates physics-aware constraints and rendered image evaluations, ensuring generated 3D layouts are coherent, physically plausible, and aesthetically consistent. Methodologically, MetaSpatial introduces an adaptive, iterative reasoning process, where the VLM refines spatial arrangements over multiple turns by analyzing rendered outputs, improving scene coherence progressively. Empirical evaluations demonstrate that MetaSpatial significantly enhances the spatial consistency and formatting stability of various scale models. Post-training, object placements are more realistic, aligned, and functionally coherent, validating the effectiveness of RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game development applications. Our code, data, and training pipeline are publicly available at https://github.com/PzySeere/MetaSpatial.

MetaSpatial: Stärkung des räumlichen 3D-Verständnisses in VLMs für das Metaversum

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Zusammenfassung

Summary

Support