GenEx: 탐색 가능한 세계 생성
GenEx: Generating an Explorable World
December 12, 2024
저자: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI
초록
3D 물리적 실제 세계를 이해하고 탐색하며 탐험하는 것은 인공지능 개발에서 오랫동안 중요한 과제였습니다. 본 연구에서는 주변 환경에 대한 사전 기대(예측)를 형성하는 생성적 상상력에 의해 안내되는 복잡한 실체화된 세계 탐사를 계획할 수 있는 시스템인 GenEx를 소개하여 이 목표에 한걸음 나아갑니다. GenEx는 단일 RGB 이미지에서부터 시작하여 전체 3D 일관된 상상적 환경을 생성하고, 이를 파노라마 비디오 스트림을 통해 현실감 있게 구현합니다. Unreal Engine에서 선별된 확장 가능한 3D 세계 데이터를 활용하여, 우리의 생성 모델은 물리적 세계에 근거를 두고 있습니다. 이 모델은 노력을 들이지 않고도 지속적인 360도 환경을 캡처하여, 인공지능 에이전트가 탐색하고 상호 작용할 수 있는 무한한 풍경을 제공합니다. GenEx는 고품질의 세계 생성, 긴 궤적에서의 강력한 루프 일관성, 일관성 및 능동적 3D 매핑과 같은 강력한 3D 능력을 구현합니다. 세계의 생성적 상상력을 기반으로, GPT 지원 에이전트는 목표에 중립적인 탐사와 목표 주도적인 탐색을 포함한 복잡한 실체화된 작업을 수행할 수 있습니다. 이러한 에이전트들은 물리적 세계의 보이지 않는 부분에 대한 예측적 기대를 활용하여 자신의 신념을 정제하고, 잠재적인 결정에 기반한 다양한 결과를 시뮬레이션하며, 보다 정보에 기반한 선택을 합니다. 요약하면, GenEx가 상상적 공간에서의 실체화된 인공지능을 발전시키는 혁신적인 플랫폼을 제공하고, 이러한 능력을 실제 세계 탐사로 확장하는 잠재력을 제공함을 증명합니다.
English
Understanding, navigating, and exploring the 3D physical real world has long
been a central challenge in the development of artificial intelligence. In this
work, we take a step toward this goal by introducing GenEx, a system capable of
planning complex embodied world exploration, guided by its generative
imagination that forms priors (expectations) about the surrounding
environments. GenEx generates an entire 3D-consistent imaginative environment
from as little as a single RGB image, bringing it to life through panoramic
video streams. Leveraging scalable 3D world data curated from Unreal Engine,
our generative model is rounded in the physical world. It captures a continuous
360-degree environment with little effort, offering a boundless landscape for
AI agents to explore and interact with. GenEx achieves high-quality world
generation, robust loop consistency over long trajectories, and demonstrates
strong 3D capabilities such as consistency and active 3D mapping. Powered by
generative imagination of the world, GPT-assisted agents are equipped to
perform complex embodied tasks, including both goal-agnostic exploration and
goal-driven navigation. These agents utilize predictive expectation regarding
unseen parts of the physical world to refine their beliefs, simulate different
outcomes based on potential decisions, and make more informed choices. In
summary, we demonstrate that GenEx provides a transformative platform for
advancing embodied AI in imaginative spaces and brings potential for extending
these capabilities to real-world exploration.