Esploratore del Mondo Generativo
Generative World Explorer
November 18, 2024
Autori: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI
Abstract
La pianificazione con osservazione parziale è una sfida centrale nell'ambito dell'IA incorporata. La maggior parte dei lavori precedenti ha affrontato questa sfida sviluppando agenti che esplorano fisicamente il loro ambiente per aggiornare le loro credenze sullo stato del mondo. Al contrario, gli esseri umani possono immaginare parti non viste del mondo attraverso un'esplorazione mentale e rivedere le loro credenze con osservazioni immaginate. Tali credenze aggiornate possono consentire loro di prendere decisioni più informate, senza la necessità di esplorare fisicamente il mondo in ogni momento. Per raggiungere questa capacità simile a quella umana, presentiamo il Generative World Explorer (Genex), un framework di esplorazione del mondo egocentrico che consente a un agente di esplorare mentalmente un mondo 3D su larga scala (ad esempio, scene urbane) e acquisire osservazioni immaginate per aggiornare le sue credenze. Queste credenze aggiornate aiuteranno quindi l'agente a prendere una decisione più informata al passo attuale. Per addestrare Genex, creiamo un dataset sintetico di scene urbane, Genex-DB. I nostri risultati sperimentali dimostrano che (1) Genex può generare osservazioni di alta qualità e coerenti durante l'esplorazione a lungo termine di un grande mondo fisico virtuale e (2) le credenze aggiornate con le osservazioni generate possono informare un modello decisionale esistente (ad esempio, un agente LLM) per formulare piani migliori.
English
Planning with partial observation is a central challenge in embodied AI. A
majority of prior works have tackled this challenge by developing agents that
physically explore their environment to update their beliefs about the world
state.In contrast, humans can imagine unseen parts of the world
through a mental exploration and revise their beliefs with imagined
observations. Such updated beliefs can allow them to make more informed
decisions, without necessitating the physical exploration of the world at all
times. To achieve this human-like ability, we introduce the Generative
World Explorer (Genex), an egocentric world exploration framework that allows
an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and
acquire imagined observations to update its belief. This updated belief will
then help the agent to make a more informed decision at the current step. To
train Genex, we create a synthetic urban scene dataset, Genex-DB.
Our experimental results demonstrate that (1) Genex can generate
high-quality and consistent observations during long-horizon exploration of a
large virtual physical world and (2) the beliefs updated with the generated
observations can inform an existing decision-making model (e.g., an LLM agent)
to make better plans.Summary
AI-Generated Summary