Aether: Geometriebewusste vereinheitlichte Weltmodellierung

Zusammenfassung

Die Integration von geometrischer Rekonstruktion und generativer Modellierung bleibt eine entscheidende Herausforderung bei der Entwicklung von KI-Systemen mit menschenähnlichem räumlichem Denkvermögen. Dieses Papier stellt Aether vor, ein einheitliches Framework, das geometrie-bewusstes Denken in Weltmodellen ermöglicht, indem es drei Kernfähigkeiten gemeinsam optimiert: (1) 4D-dynamische Rekonstruktion, (2) aktionsbedingte Videovorhersage und (3) zielbedingte visuelle Planung. Durch aufgabenverflochtenes Feature-Lernen erreicht Aether eine synergetische Wissensweitergabe über Rekonstruktions-, Vorhersage- und Planungsziele hinweg. Aufbauend auf Videogenerationsmodellen zeigt unser Framework eine beispiellose Generalisierung von synthetischen zu realen Daten, obwohl es während des Trainings niemals reale Weltdaten beobachtet hat. Darüber hinaus erreicht unser Ansatz eine Zero-Shot-Generalisierung sowohl bei Aufgaben der Aktionsfolge als auch der Rekonstruktion, dank seiner intrinsischen geometrischen Modellierung. Bemerkenswerterweise übertrifft die Rekonstruktionsleistung sogar die domänenspezifischer Modelle, obwohl keine realen Weltdaten verwendet wurden. Zusätzlich nutzt Aether einen geometrie-informierten Aktionsraum, um Vorhersagen nahtlos in Aktionen zu übersetzen und so eine effektive autonome Trajektorienplanung zu ermöglichen. Wir hoffen, dass unsere Arbeit die Gemeinschaft dazu inspiriert, neue Grenzen in der physikalisch plausiblen Weltmodellierung und ihren Anwendungen zu erkunden.

English

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Aether: Geometriebewusste vereinheitlichte Weltmodellierung

Aether: Geometric-Aware Unified World Modeling

Zusammenfassung

Summary

Support