GenEx: Generazione di un Mondo Esplorabile

GenEx: Generating an Explorable World

December 12, 2024
Autori: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI

Abstract

Comprendere, navigare ed esplorare il mondo fisico tridimensionale è da tempo una sfida centrale nello sviluppo dell'intelligenza artificiale. In questo lavoro, facciamo un passo verso questo obiettivo presentando GenEx, un sistema in grado di pianificare complesse esplorazioni del mondo incarnato, guidato dalla sua immaginazione generativa che forma aspettative sugli ambienti circostanti. GenEx genera un intero ambiente immaginario coerente in 3D partendo da una singola immagine RGB, portandolo alla vita attraverso flussi video panoramici. Sfruttando dati del mondo tridimensionale scalabili provenienti da Unreal Engine, il nostro modello generativo è radicato nel mondo fisico. Cattura un ambiente continuo a 360 gradi con poco sforzo, offrendo un paesaggio illimitato per gli agenti di intelligenza artificiale da esplorare e interagire. GenEx raggiunge una generazione di mondo di alta qualità, una robusta coerenza ciclica su lunghe traiettorie e dimostra forti capacità 3D come coerenza e mappatura 3D attiva. Alimentati dall'immaginazione generativa del mondo, gli agenti assistiti da GPT sono in grado di svolgere compiti complessi incarnati, inclusa l'esplorazione senza scopo preciso e la navigazione guidata dall'obiettivo. Questi agenti utilizzano aspettative predictive riguardanti parti non viste del mondo fisico per affinare le loro convinzioni, simulare diversi risultati basati su decisioni potenziali e prendere scelte più informate. In sintesi, dimostriamo che GenEx fornisce una piattaforma trasformativa per far progredire l'intelligenza artificiale incarnata in spazi immaginari e porta il potenziale per estendere queste capacità all'esplorazione del mondo reale.
English
Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.

Summary

AI-Generated Summary

PDF882December 16, 2024