Generatieve Wereldverkenner
Generative World Explorer
November 18, 2024
Auteurs: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI
Samenvatting
Plannen met gedeeltelijke observatie is een centrale uitdaging in embodied AI. Een meerderheid van eerdere werken heeft deze uitdaging aangepakt door agenten te ontwikkelen die fysiek hun omgeving verkennen om hun overtuigingen over de wereldstaat bij te werken. In tegenstelling hiermee kunnen mensen ongeziene delen van de wereld voorstellen door middel van mentale verkenning en hun overtuigingen herzien met voorgestelde observaties. Dergelijke bijgewerkte overtuigingen kunnen hen in staat stellen om meer geïnformeerde beslissingen te nemen, zonder dat ze voortdurend de wereld fysiek hoeven te verkennen. Om deze menselijke vaardigheid te bereiken, introduceren we de Generative World Explorer (Genex), een egocentrisch wereldverkenningskader dat een agent in staat stelt om mentaal een grootschalige 3D-wereld (bijv. stedelijke scènes) te verkennen en denkbeeldige observaties te verkrijgen om zijn overtuiging bij te werken. Deze bijgewerkte overtuiging zal de agent vervolgens helpen om een meer geïnformeerde beslissing te nemen op het huidige moment. Om Genex te trainen, creëren we een synthetische stedelijke scènedataset, Genex-DB. Onze experimentele resultaten tonen aan dat (1) Genex hoogwaardige en consistente observaties kan genereren tijdens verkenning op lange termijn van een grote virtuele fysieke wereld en (2) de overtuigingen bijgewerkt met de gegenereerde observaties een bestaand besluitvormingsmodel (bijv. een LLM-agent) kunnen informeren om betere plannen te maken.
English
Planning with partial observation is a central challenge in embodied AI. A
majority of prior works have tackled this challenge by developing agents that
physically explore their environment to update their beliefs about the world
state.In contrast, humans can imagine unseen parts of the world
through a mental exploration and revise their beliefs with imagined
observations. Such updated beliefs can allow them to make more informed
decisions, without necessitating the physical exploration of the world at all
times. To achieve this human-like ability, we introduce the Generative
World Explorer (Genex), an egocentric world exploration framework that allows
an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and
acquire imagined observations to update its belief. This updated belief will
then help the agent to make a more informed decision at the current step. To
train Genex, we create a synthetic urban scene dataset, Genex-DB.
Our experimental results demonstrate that (1) Genex can generate
high-quality and consistent observations during long-horizon exploration of a
large virtual physical world and (2) the beliefs updated with the generated
observations can inform an existing decision-making model (e.g., an LLM agent)
to make better plans.Summary
AI-Generated Summary