Apprendimento da video umani massivi per il controllo universale della postura umanoide.

Abstract

L'apprendimento scalabile dei robot umanoidi è cruciale per la loro implementazione in applicazioni reali. Mentre gli approcci tradizionali si basano principalmente sull'apprendimento per rinforzo o sulla teleoperazione per ottenere il controllo dell'intero corpo, sono spesso limitati dalla diversità degli ambienti simulati e dai costi elevati per la raccolta delle dimostrazioni. Al contrario, i video umani sono onnipresenti e rappresentano una fonte inesplorata di informazioni semantiche e di movimento che potrebbero migliorare significativamente le capacità di generalizzazione dei robot umanoidi. Questo articolo introduce Humanoid-X, un dataset su larga scala di oltre 20 milioni di pose di robot umanoidi con descrizioni di movimento basate su testo corrispondenti, progettato per sfruttare questi dati abbondanti. Humanoid-X è curato attraverso un processo completo: data mining da Internet, generazione di didascalie video, retargeting del movimento dagli esseri umani ai robot umanoidi e apprendimento di politiche per l'implementazione nel mondo reale. Con Humanoid-X, addestriamo ulteriormente un grande modello umanoide, UH-1, che riceve istruzioni testuali in ingresso e produce azioni corrispondenti per controllare un robot umanoide. Estesi esperimenti simulati e nel mondo reale confermano che il nostro approccio di addestramento scalabile porta a una migliore generalizzazione nel controllo testuale dei robot umanoidi, segnando un passo significativo verso robot umanoidi adattabili e pronti per il mondo reale.

English

Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Apprendimento da video umani massivi per il controllo universale della postura umanoide.

Learning from Massive Human Videos for Universal Humanoid Pose Control

Abstract

Summary

Support