GenSim2: 다중 모달 및 추론을 활용한 로봇 데이터 생성의 확장
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
저자: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
초록
로봇 시뮬레이션은 다양한 시뮬레이션 작업과 장면을 만들기 위해 필요한 인간 노력으로 인해 확장이 어려운 상태입니다. 또한 시뮬레이션으로 훈련된 정책은 많은 시뮬레이션-실제 전이 방법이 단일 작업에 집중하기 때문에 확장성 문제에 직면하고 있습니다. 이러한 도전에 대처하기 위해 본 연구는 복잡하고 현실적인 시뮬레이션 작업을 위해 다중 모달 및 추론 능력을 갖춘 코딩 LLM을 활용하는 확장 가능한 프레임워크인 GenSim2를 제안합니다. 이를 위해 오브젝트 범주 내에서 일반화하는 계획 및 강화 학습 솔버를 제안하여 이러한 작업을 위한 자동 생성된 데모 데이터를 대규모로 생성합니다. 이 파이프라인은 200개의 오브젝트를 포함한 100개의 관절 작업에 대한 데이터를 생성하고 필요한 인간 노력을 줄일 수 있습니다. 이러한 데이터를 활용하기 위해 생성된 데모로부터 학습하는 효과적인 다중 작업 언어 조건화 정책 아키텍처인 proprioceptive point-cloud transformer (PPT)를 제안합니다. 제안된 파이프라인과 정책 아키텍처를 결합하여 GenSim2의 유망한 활용을 보여줍니다. 생성된 데이터가 제로샷 전이에 사용되거나 현실에서 수집된 데이터와 함께 공동으로 훈련될 수 있어 정책 성능이 제한된 실제 데이터만으로 훈련하는 것과 비교하여 20% 향상될 수 있음을 보여줍니다.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.Summary
AI-Generated Summary