ChatPaper.aiChatPaper

巨大な人間のビデオから学ぶことによる汎用ヒューマノイド姿勢制御

Learning from Massive Human Videos for Universal Humanoid Pose Control

December 18, 2024
著者: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang
cs.AI

要旨

ヒューマノイドロボットのスケーラブルな学習は、現実世界の応用における展開に不可欠です。従来のアプローチは、主に強化学習や遠隔操作に依存して全身制御を実現していますが、シミュレートされた環境の多様性やデモ収集の高コストによって制約されることが多いです。それに対し、人間のビデオは普及しており、ヒューマノイドロボットの汎化能力を大幅に向上させる可能性があるセマンティックおよびモーション情報の未開拓の情報源となり得ます。本論文では、この豊富なデータを活用するために設計された、2000万以上のヒューマノイドロボットのポーズとそれに対応するテキストベースのモーション記述を持つ大規模データセットであるHumanoid-Xを紹介します。Humanoid-Xは、インターネットからのデータマイニング、ビデオのキャプション生成、人間からヒューマノイドロボットへのモーションリターゲティング、および現実世界への展開のためのポリシー学習を通じて精選されています。Humanoid-Xを使用して、テキスト指示を入力とし、ヒューマノイドロボットを制御するための対応するアクションを出力する大規模なヒューマノイドモデルであるUH-1をさらにトレーニングします。広範なシミュレートおよび現実世界の実験により、当社のスケーラブルなトレーニングアプローチが、テキストベースのヒューマノイド制御において優れた汎化をもたらすことが検証され、適応可能で現実世界で利用可能なヒューマノイドロボットに向けた重要な一歩となっています。
English
Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Summary

AI-Generated Summary

PDF102December 19, 2024