ChatPaper.aiChatPaper

DynaMo: 시각-운동 제어를 위한 도메인 내 동적 사전 훈련

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

September 18, 2024
저자: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI

초록

모방 학습은 복잡한 시각운동 정책을 훈련하는 강력한 도구로 입증되었습니다. 그러나 현재의 방법은 종종 고차원 시각 관측을 처리하기 위해 수백 개에서 수천 개의 전문가 데모를 필요로 합니다. 이러한 낮은 데이터 효율성의 주요 이유 중 하나는 시각적 표현이 주로 도메인 외 데이터에서 사전 훈련되거나 행동 복제 목적으로 직접 훈련되기 때문입니다. 본 연구에서는 시각적 표현을 학습하기 위한 새로운 도메인 내 자가 지도 방법인 DynaMo를 제안합니다. 전문가 데모 세트를 고려할 때, 이미지 임베딩 순서 상에서 다음 프레임을 잠재 공간에서 예측하는 잠재 역학 모델과 순방향 역학 모델을 공동으로 학습합니다. 이때 보강, 대조적 샘플링 또는 실제 행동에 대한 접근 없이 진행됩니다. 중요한 점은 DynaMo가 인터넷 데이터셋이나 교차된 데이터셋과 같은 도메인 외 데이터를 필요로 하지 않는다는 것입니다. 6개의 시뮬레이션 및 실제 환경을 대상으로 한 실험 결과, DynaMo로 학습된 표현이 이전의 자가 지도 학습 목적 및 사전 훈련된 표현보다 모방 학습 성능을 크게 향상시킨다는 것을 보여줍니다. DynaMo 사용으로 인한 이득은 Behavior Transformer, 확산 정책, MLP 및 최근접 이웃과 같은 정책 클래스에 걸쳐 유지됩니다. 마지막으로, DynaMo의 주요 구성 요소에 대한 실험을 통해 하부 정책 성능에 미치는 영향을 측정합니다. 로봇 비디오는 https://dynamo-ssl.github.io에서 확인할 수 있습니다.
English
Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

Summary

AI-Generated Summary

PDF53November 16, 2024