4차원 표현을 활용한 자동회귀 로봇 모델의 사전 학습
Pre-training Auto-regressive Robotic Models with 4D Representations
February 18, 2025
저자: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig
cs.AI
초록
대규모의 레이블 없는 데이터셋으로 사전 학습된 파운데이션 모델은 자연어 처리와 컴퓨터 비전 분야에서 혁신을 일으키며 놀라운 일반화 능력을 보여주었고, 이는 사전 학습의 중요성을 강조합니다. 그러나 로보틱스 분야에서는 비싼 로봇 주석의 필요성이나 물리적 세계를 효과적으로 모델링하는 표현의 부족으로 인해 비슷한 성공을 거두기 어려웠습니다. 본 논문에서는 인간 비디오 데이터에서 학습된 저수준 4D 표현을 활용하여 더 나은 사전 학습된 로봇 모델을 제공하는 ARM4R(Auto-regressive Robotic Model)을 소개합니다. 구체적으로, 우리는 단안 깊이 추정을 통해 시간에 걸쳐 2D 표현을 3D 공간으로 리프팅하여 얻은 비디오의 3D 포인트 트래킹 표현을 활용하는 데 초점을 맞춥니다. 이러한 4D 표현은 포인트와 로봇 상태 표현 간의 공유 기하학적 구조를 선형 변환까지 유지하며, 인간 비디오 데이터에서 저수준 로봇 제어로의 효율적인 전이 학습을 가능하게 합니다. 우리의 실험 결과, ARM4R은 인간 비디오 데이터에서 로보틱스로 효율적으로 전이될 수 있으며, 다양한 로봇 환경과 구성에서의 작업 성능을 지속적으로 향상시킵니다.
English
Foundation models pre-trained on massive unlabeled datasets have
revolutionized natural language and computer vision, exhibiting remarkable
generalization capabilities, thus highlighting the importance of pre-training.
Yet, efforts in robotics have struggled to achieve similar success, limited by
either the need for costly robotic annotations or the lack of representations
that effectively model the physical world. In this paper, we introduce ARM4R,
an Auto-regressive Robotic Model that leverages low-level 4D Representations
learned from human video data to yield a better pre-trained robotic model.
Specifically, we focus on utilizing 3D point tracking representations from
videos derived by lifting 2D representations into 3D space via monocular depth
estimation across time. These 4D representations maintain a shared geometric
structure between the points and robot state representations up to a linear
transformation, enabling efficient transfer learning from human video data to
low-level robotic control. Our experiments show that ARM4R can transfer
efficiently from human video data to robotics and consistently improves
performance on tasks across various robot environments and configurations.Summary
AI-Generated Summary