MetaSpatial: Stärkung des räumlichen 3D-Verständnisses in VLMs für das Metaversum
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
March 24, 2025
Autoren: Zhenyu Pan, Han Liu
cs.AI
Zusammenfassung
Wir präsentieren MetaSpatial, das erste auf Reinforcement Learning (RL) basierende Framework, das entwickelt wurde, um das 3D-räumliche Denken in Vision-Language-Modellen (VLMs) zu verbessern und die Echtzeit-Generierung von 3D-Szenen ohne die Notwendigkeit von hartkodierten Optimierungen zu ermöglichen. MetaSpatial adressiert zwei zentrale Herausforderungen: (i) das Fehlen von internalisiertem 3D-räumlichem Denken in VLMs, was ihre Fähigkeit einschränkt, realistische Layouts zu generieren, und (ii) die Ineffizienz des traditionellen überwachten Feinabstimmens (SFT) für Layout-Generierungsaufgaben, da perfekte Ground-Truth-Annotationen nicht verfügbar sind. Unsere Schlüsselinnovation ist ein mehrstufiger RL-basierter Optimierungsmechanismus, der physikbewusste Einschränkungen und gerenderte Bildbewertungen integriert, um sicherzustellen, dass die generierten 3D-Layouts kohärent, physikalisch plausibel und ästhetisch konsistent sind. Methodisch führt MetaSpatial einen adaptiven, iterativen Denkprozess ein, bei dem das VLM räumliche Anordnungen über mehrere Stufen hinweg verfeinert, indem es gerenderte Ausgaben analysiert und die Szenenkohärenz schrittweise verbessert. Empirische Auswertungen zeigen, dass MetaSpatial die räumliche Konsistenz und Formatierungsstabilität verschiedener Skalenmodelle signifikant verbessert. Nach dem Training sind Objektplatzierungen realistischer, ausgerichtet und funktional kohärenter, was die Wirksamkeit von RL für 3D-räumliches Denken in Anwendungen wie Metaverse, AR/VR, digitalen Zwillingen und Spielentwicklung bestätigt. Unser Code, Daten und Trainingspipeline sind öffentlich unter https://github.com/PzySeere/MetaSpatial verfügbar.
English
We present MetaSpatial, the first reinforcement learning (RL)-based framework
designed to enhance 3D spatial reasoning in vision-language models (VLMs),
enabling real-time 3D scene generation without the need for hard-coded
optimizations. MetaSpatial addresses two core challenges: (i) the lack of
internalized 3D spatial reasoning in VLMs, which limits their ability to
generate realistic layouts, and (ii) the inefficiency of traditional supervised
fine-tuning (SFT) for layout generation tasks, as perfect ground truth
annotations are unavailable. Our key innovation is a multi-turn RL-based
optimization mechanism that integrates physics-aware constraints and rendered
image evaluations, ensuring generated 3D layouts are coherent, physically
plausible, and aesthetically consistent. Methodologically, MetaSpatial
introduces an adaptive, iterative reasoning process, where the VLM refines
spatial arrangements over multiple turns by analyzing rendered outputs,
improving scene coherence progressively. Empirical evaluations demonstrate that
MetaSpatial significantly enhances the spatial consistency and formatting
stability of various scale models. Post-training, object placements are more
realistic, aligned, and functionally coherent, validating the effectiveness of
RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game
development applications. Our code, data, and training pipeline are publicly
available at https://github.com/PzySeere/MetaSpatial.Summary
AI-Generated Summary