IGOR: 이미지-목표 표현은 신체를 갖춘 인공지능의 기초 모델에서의 원자 제어 단위입니다.
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI
October 17, 2024
저자: Xiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian
cs.AI
초록
우리는 Image-GOal Representations (IGOR)을 소개합니다. IGOR은 인간과 다양한 로봇 간에 통일된 의미론적으로 일관된 행동 공간을 학습하기 위해 설계되었습니다. 이 통일된 잠재적 행동 공간을 통해 IGOR은 대규모 로봇 및 인간 활동 데이터 간의 지식 이전을 가능하게 합니다. 우리는 초기 이미지와 목표 상태 간의 시각적 변화를 잠재적 행동으로 압축함으로써 이를 달성합니다. IGOR을 사용하면 인터넷 규모의 비디오 데이터에 대한 잠재적 행동 레이블을 생성할 수 있습니다. 이 통일된 잠재적 행동 공간은 로봇과 인간이 수행하는 다양한 작업에 걸쳐 기초 정책 및 세계 모델의 교육을 가능하게 합니다. 우리는 다음을 입증합니다: (1) IGOR은 인간과 로봇 모두에 대해 의미론적으로 일관된 행동 공간을 학습하여 물리적 상호 작용 지식을 대표하는 객체의 다양한 움직임을 특징화합니다; (2) IGOR은 잠재적 행동 모델과 세계 모델을 공동으로 사용하여 객체의 움직임을 한 비디오에서 다른 비디오로 "이주"시킬 수 있습니다. 심지어 인간과 로봇 간에도 가능합니다; (3) IGOR은 기초 정책 모델을 통해 잠재적 행동을 자연어와 일치시키고, 낮은 수준의 정책 모델과 통합하여 효과적인 로봇 제어를 달성할 수 있습니다. 우리는 IGOR이 인간에서 로봇으로의 지식 이전과 제어를 위한 새로운 가능성을 열어줄 것이라고 믿습니다.
English
We introduce Image-GOal Representations (IGOR), aiming to learn a unified,
semantically consistent action space across human and various robots. Through
this unified latent action space, IGOR enables knowledge transfer among
large-scale robot and human activity data. We achieve this by compressing
visual changes between an initial image and its goal state into latent actions.
IGOR allows us to generate latent action labels for internet-scale video data.
This unified latent action space enables the training of foundation policy and
world models across a wide variety of tasks performed by both robots and
humans. We demonstrate that: (1) IGOR learns a semantically consistent action
space for both human and robots, characterizing various possible motions of
objects representing the physical interaction knowledge; (2) IGOR can "migrate"
the movements of the object in the one video to other videos, even across human
and robots, by jointly using the latent action model and world model; (3) IGOR
can learn to align latent actions with natural language through the foundation
policy model, and integrate latent actions with a low-level policy model to
achieve effective robot control. We believe IGOR opens new possibilities for
human-to-robot knowledge transfer and control.Summary
AI-Generated Summary