Generativer Weltentdecker
Generative World Explorer
November 18, 2024
Autoren: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI
Zusammenfassung
Die Planung mit teilweiser Beobachtung ist eine zentrale Herausforderung in der verkörperten KI. Die Mehrheit der bisherigen Arbeiten hat diese Herausforderung angegangen, indem sie Agenten entwickelt haben, die ihre Umgebung physisch erkunden, um ihre Überzeugungen über den Zustand der Welt zu aktualisieren. Im Gegensatz dazu können Menschen durch eine mentale Erkundung unsichtbarer Teile der Welt vorstellen und ihre Überzeugungen mit vorgestellten Beobachtungen überarbeiten. Solche aktualisierten Überzeugungen können es ihnen ermöglichen, informiertere Entscheidungen zu treffen, ohne die physische Erkundung der Welt ständig zu erfordern. Um diese menschenähnliche Fähigkeit zu erreichen, stellen wir den Generativen Weltentdecker (Genex) vor, ein egozentrisches Weltentdeckungsframework, das einem Agenten ermöglicht, eine groß angelegte 3D-Welt (z. B. städtische Szenen) mental zu erkunden und vorgestellte Beobachtungen zu sammeln, um seine Überzeugung zu aktualisieren. Diese aktualisierte Überzeugung wird dem Agenten dann helfen, eine informiertere Entscheidung im aktuellen Schritt zu treffen. Um Genex zu trainieren, erstellen wir einen synthetischen städtischen Szenendatensatz, Genex-DB. Unsere experimentellen Ergebnisse zeigen, dass (1) Genex hochwertige und konsistente Beobachtungen während der Langzeit-Erkundung einer großen virtuellen physischen Welt generieren kann und (2) die mit den generierten Beobachtungen aktualisierten Überzeugungen ein vorhandenes Entscheidungsmodell (z. B. einen LLM-Agenten) informieren können, um bessere Pläne zu erstellen.
English
Planning with partial observation is a central challenge in embodied AI. A
majority of prior works have tackled this challenge by developing agents that
physically explore their environment to update their beliefs about the world
state.In contrast, humans can imagine unseen parts of the world
through a mental exploration and revise their beliefs with imagined
observations. Such updated beliefs can allow them to make more informed
decisions, without necessitating the physical exploration of the world at all
times. To achieve this human-like ability, we introduce the Generative
World Explorer (Genex), an egocentric world exploration framework that allows
an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and
acquire imagined observations to update its belief. This updated belief will
then help the agent to make a more informed decision at the current step. To
train Genex, we create a synthetic urban scene dataset, Genex-DB.
Our experimental results demonstrate that (1) Genex can generate
high-quality and consistent observations during long-horizon exploration of a
large virtual physical world and (2) the beliefs updated with the generated
observations can inform an existing decision-making model (e.g., an LLM agent)
to make better plans.Summary
AI-Generated Summary