Explorateur de Mondes Génératif
Generative World Explorer
November 18, 2024
Auteurs: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI
Résumé
La planification avec une observation partielle est un défi central en intelligence artificielle incarnée. La majorité des travaux antérieurs ont abordé ce défi en développant des agents qui explorent physiquement leur environnement pour mettre à jour leurs croyances sur l'état du monde. En revanche, les humains peuvent imaginer des parties invisibles du monde à travers une exploration mentale et réviser leurs croyances avec des observations imaginées. De telles croyances mises à jour peuvent leur permettre de prendre des décisions plus éclairées, sans nécessiter l'exploration physique du monde en permanence. Pour atteindre cette capacité semblable à celle des humains, nous introduisons le Générateur d'Exploration du Monde (Genex), un cadre d'exploration du monde égocentrique qui permet à un agent d'explorer mentalement un monde 3D à grande échelle (par exemple, des scènes urbaines) et d'acquérir des observations imaginées pour mettre à jour sa croyance. Cette croyance mise à jour aidera ensuite l'agent à prendre une décision plus éclairée à l'étape actuelle. Pour entraîner Genex, nous créons un ensemble de données de scènes urbaines synthétiques, Genex-DB. Nos résultats expérimentaux démontrent que (1) Genex peut générer des observations de haute qualité et cohérentes lors de l'exploration à long terme d'un grand monde physique virtuel et (2) les croyances mises à jour avec les observations générées peuvent informer un modèle de prise de décision existant (par exemple, un agent LLM) pour élaborer de meilleurs plans.
English
Planning with partial observation is a central challenge in embodied AI. A
majority of prior works have tackled this challenge by developing agents that
physically explore their environment to update their beliefs about the world
state.In contrast, humans can imagine unseen parts of the world
through a mental exploration and revise their beliefs with imagined
observations. Such updated beliefs can allow them to make more informed
decisions, without necessitating the physical exploration of the world at all
times. To achieve this human-like ability, we introduce the Generative
World Explorer (Genex), an egocentric world exploration framework that allows
an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and
acquire imagined observations to update its belief. This updated belief will
then help the agent to make a more informed decision at the current step. To
train Genex, we create a synthetic urban scene dataset, Genex-DB.
Our experimental results demonstrate that (1) Genex can generate
high-quality and consistent observations during long-horizon exploration of a
large virtual physical world and (2) the beliefs updated with the generated
observations can inform an existing decision-making model (e.g., an LLM agent)
to make better plans.Summary
AI-Generated Summary