Aether: Geometriebewusste vereinheitlichte Weltmodellierung
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Autoren: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Zusammenfassung
Die Integration von geometrischer Rekonstruktion und generativer Modellierung bleibt eine entscheidende Herausforderung bei der Entwicklung von KI-Systemen mit menschenähnlichem räumlichem Denkvermögen. Dieses Papier stellt Aether vor, ein einheitliches Framework, das geometrie-bewusstes Denken in Weltmodellen ermöglicht, indem es drei Kernfähigkeiten gemeinsam optimiert: (1) 4D-dynamische Rekonstruktion, (2) aktionsbedingte Videovorhersage und (3) zielbedingte visuelle Planung. Durch aufgabenverflochtenes Feature-Lernen erreicht Aether eine synergetische Wissensweitergabe über Rekonstruktions-, Vorhersage- und Planungsziele hinweg. Aufbauend auf Videogenerationsmodellen zeigt unser Framework eine beispiellose Generalisierung von synthetischen zu realen Daten, obwohl es während des Trainings niemals reale Weltdaten beobachtet hat. Darüber hinaus erreicht unser Ansatz eine Zero-Shot-Generalisierung sowohl bei Aufgaben der Aktionsfolge als auch der Rekonstruktion, dank seiner intrinsischen geometrischen Modellierung. Bemerkenswerterweise übertrifft die Rekonstruktionsleistung sogar die domänenspezifischer Modelle, obwohl keine realen Weltdaten verwendet wurden. Zusätzlich nutzt Aether einen geometrie-informierten Aktionsraum, um Vorhersagen nahtlos in Aktionen zu übersetzen und so eine effektive autonome Trajektorienplanung zu ermöglichen. Wir hoffen, dass unsere Arbeit die Gemeinschaft dazu inspiriert, neue Grenzen in der physikalisch plausiblen Weltmodellierung und ihren Anwendungen zu erkunden.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary