최소한의 피드백으로 정렬 최대화: 시각운동로봇 정책 정렬을 위한 효율적인 보상 학습
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment
December 6, 2024
저자: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
cs.AI
초록
시각운동로봇 정책은 점점 대규모 데이터셋에서 사전 훈련되며, 로봇 공학 분야 전반에 걸쳐 중요한 발전을 약속합니다. 그러나 이러한 정책을 최종 사용자 선호도와 조율하는 것은 특히 선호도를 명확히 지정하기 어려울 때 도전입니다. 인간 피드백으로부터 강화 학습(RLHF)은 대규모 언어 모델과 같은 비구형 도메인에서 조율의 주요 메커니즘이 되었지만, 시각운동로봇 정책을 조율하는 데는 시각적 보상 함수를 학습하는 데 필요한 인간 피드백의 양이 막대한 이유로 동일한 성공을 보지 못했습니다. 이 한계를 극복하기 위해 우리는 시각적 보상을 학습하는 관측만 방법인 '표현-조율 기반 학습' (RAPL)을 제안합니다. 전통적인 RLHF와 달리 RAPL은 인간 피드백을 사전 훈련된 비전 인코더를 세밀하게 조정하여 최종 사용자의 시각적 표현과 일치시키고, 이에 따라 조율된 표현 공간에서 특징 일치를 통해 밀도 있는 시각적 보상을 구성합니다. 우리는 먼저 X-Magical 벤치마크와 Franka Panda 로봇 조작에서 시뮬레이션 실험을 통해 RAPL을 검증하고, 인간 선호도와 일치하는 보상을 학습할 수 있으며, 선호 데이터를 더 효율적으로 사용하며 로봇 본체 간에 일반화할 수 있음을 보여줍니다. 마지막으로, 세 가지 물체 조작 작업에 대해 사전 훈련된 확산 정책을 조율하는 하드웨어 실험을 수행합니다. RAPL은 이러한 정책을 5배 더 적은 실제 인간 선호도 데이터로 세밀하게 조정할 수 있음을 발견하며, 인간 피드백을 최소화하고 시각운동로봇 정책 조율을 극대화하는 첫걸음을 내딛습니다.
English
Visuomotor robot policies, increasingly pre-trained on large-scale datasets,
promise significant advancements across robotics domains. However, aligning
these policies with end-user preferences remains a challenge, particularly when
the preferences are hard to specify. While reinforcement learning from human
feedback (RLHF) has become the predominant mechanism for alignment in
non-embodied domains like large language models, it has not seen the same
success in aligning visuomotor policies due to the prohibitive amount of human
feedback required to learn visual reward functions. To address this limitation,
we propose Representation-Aligned Preference-based Learning (RAPL), an
observation-only method for learning visual rewards from significantly less
human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback
on fine-tuning pre-trained vision encoders to align with the end-user's visual
representation and then constructs a dense visual reward via feature matching
in this aligned representation space. We first validate RAPL through simulation
experiments in the X-Magical benchmark and Franka Panda robotic manipulation,
demonstrating that it can learn rewards aligned with human preferences, more
efficiently uses preference data, and generalizes across robot embodiments.
Finally, our hardware experiments align pre-trained Diffusion Policies for
three object manipulation tasks. We find that RAPL can fine-tune these policies
with 5x less real human preference data, taking the first step towards
minimizing human feedback while maximizing visuomotor robot policy alignment.Summary
AI-Generated Summary