Aprendizagem a partir de Vídeos Humanos em Massa para Controlo Universal de Postura Humana em Humanoides

Learning from Massive Human Videos for Universal Humanoid Pose Control

December 18, 2024
Autores: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang
cs.AI

Resumo

A aprendizagem escalável de robôs humanoides é crucial para sua implementação em aplicações do mundo real. Enquanto abordagens tradicionais geralmente se baseiam em aprendizado por reforço ou teleoperação para alcançar controle de corpo inteiro, elas frequentemente são limitadas pela diversidade de ambientes simulados e pelos altos custos de coleta de demonstrações. Em contraste, vídeos humanos são ubíquos e representam uma fonte inexplorada de informações semânticas e de movimento que poderiam melhorar significativamente as capacidades de generalização de robôs humanoides. Este artigo apresenta Humanoid-X, um conjunto de dados em larga escala com mais de 20 milhões de poses de robôs humanoides com descrições de movimento baseadas em texto correspondentes, projetado para aproveitar esses dados abundantes. O Humanoid-X é elaborado por meio de um pipeline abrangente: mineração de dados da Internet, geração de legendas de vídeo, retargeting de movimento de humanos para robôs humanoides e aprendizado de políticas para implementação no mundo real. Com o Humanoid-X, treinamos ainda um modelo de robô humanoide em grande escala, UH-1, que recebe instruções em texto como entrada e gera ações correspondentes para controlar um robô humanoide. Experimentos extensivos em simulação e no mundo real validam que nossa abordagem de treinamento escalável resulta em uma generalização superior no controle de humanoides baseado em texto, representando um avanço significativo em direção a robôs humanoides adaptáveis e prontos para o mundo real.
English
Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Summary

AI-Generated Summary

PDF102December 19, 2024