체현-RAG: 검색 및 생성을 위한 일반 비모수 체현 기억
Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation
September 26, 2024
저자: Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk
cs.AI
초록
로봇이 탐험하고 학습하는 양은 제한이 없지만, 그 모든 지식은 검색 가능하고 실행 가능해야 합니다. 언어 연구 내에서 검색 증강 생성 (RAG)은 대규모 비몤개례 지식의 주력이 되었지만, 기존 기술은 직접 체현 영역으로 이전되지 않습니다. 이 영역은 다중 모달이며 데이터가 높은 상관 관계를 갖고 있으며 지각에는 추상화가 필요합니다.
이러한 도전에 대응하기 위해 우리는 체현-RAG를 소개합니다. 이는 비모수 메모리 시스템을 갖춘 체현 에이전트의 기본 모델을 강화하여 자율적으로 계층적 지식을 구축할 수 있는 프레임워크입니다. 체현-RAG는 다양한 환경 및 쿼리 유형에 걸쳐 공간 및 의미적 해상도의 전 범위를 처리하며, 특정 객체 또는 분위기의 전체적 설명을 위한 것일지라도 처리합니다. 체현-RAG의 핵심은 의미적 숲으로 구성된 메모리로, 다양한 세부 수준에서 언어 설명을 저장합니다. 이러한 계층적 구성은 시스템이 다른 로봇 플랫폼에서 다양한 맥락에 민감한 출력을 효율적으로 생성할 수 있도록 합니다. 우리는 체현-RAG가 RAG를 로봇 공간으로 효과적으로 연결하며, 19개 환경에서 200개 이상의 설명 및 탐색 쿼리를 성공적으로 처리함으로써, 체현 에이전트를 위한 일반 목적 비모수 시스템의 잠재력을 강조합니다.
English
There is no limit to how much a robot might explore and learn, but all of
that knowledge needs to be searchable and actionable. Within language research,
retrieval augmented generation (RAG) has become the workhouse of large-scale
non-parametric knowledge, however existing techniques do not directly transfer
to the embodied domain, which is multimodal, data is highly correlated, and
perception requires abstraction.
To address these challenges, we introduce Embodied-RAG, a framework that
enhances the foundational model of an embodied agent with a non-parametric
memory system capable of autonomously constructing hierarchical knowledge for
both navigation and language generation. Embodied-RAG handles a full range of
spatial and semantic resolutions across diverse environments and query types,
whether for a specific object or a holistic description of ambiance. At its
core, Embodied-RAG's memory is structured as a semantic forest, storing
language descriptions at varying levels of detail. This hierarchical
organization allows the system to efficiently generate context-sensitive
outputs across different robotic platforms. We demonstrate that Embodied-RAG
effectively bridges RAG to the robotics domain, successfully handling over 200
explanation and navigation queries across 19 environments, highlighting its
promise for general-purpose non-parametric system for embodied agents.Summary
AI-Generated Summary