Being-0: Ein humanoider Roboteragent mit Vision-Sprache-Modellen und modularen Fähigkeiten

Zusammenfassung

Die Entwicklung autonomer Roboteragenten, die in der Lage sind, menschliche Leistungsfähigkeit in realen verkörperten Aufgaben zu erreichen, ist ein ultimatives Ziel in der Forschung zu humanoiden Robotern. Jüngste Fortschritte haben bedeutende Verbesserungen in der hochgradigen Kognition mit Foundation Models (FMs) und in der Entwicklung von grundlegenden Fähigkeiten für humanoide Roboter erzielt. Die direkte Kombination dieser Komponenten führt jedoch oft zu mangelnder Robustheit und Effizienz, was auf die Kumulation von Fehlern in langfristigen Aufgaben und die unterschiedliche Latenz verschiedener Module zurückzuführen ist. Wir stellen Being-0 vor, ein hierarchisches Agenten-Framework, das ein FM mit einer modularen Fähigkeitsbibliothek integriert. Das FM übernimmt hochgradige kognitive Aufgaben wie das Verstehen von Anweisungen, die Aufgabenplanung und das logische Denken, während die Fähigkeitsbibliothek stabile Fortbewegung und geschickte Manipulation für die grundlegende Steuerung bereitstellt. Um die Lücke zwischen diesen Ebenen zu schließen, schlagen wir ein neuartiges Connector-Modul vor, das von einem leichten Vision-Language-Modell (VLM) angetrieben wird. Der Connector verbessert die verkörperten Fähigkeiten des FMs, indem er sprachbasierte Pläne in ausführbare Fähigkeitsbefehle übersetzt und die Fortbewegung und Manipulation dynamisch koordiniert, um den Aufgaben-Erfolg zu steigern. Da alle Komponenten, außer dem FM, auf kostengünstigen Onboard-Rechengeräten einsetzbar sind, erreicht Being-0 eine effiziente, Echtzeit-Leistung auf einem vollständig ausgestatteten humanoiden Roboter mit geschickten Händen und aktiver Sehfähigkeit. Umfangreiche Experimente in großen Innenräumen demonstrieren die Effektivität von Being-0 bei der Lösung komplexer, langfristiger Aufgaben, die anspruchsvolle Navigations- und Manipulationsunteraufgaben erfordern. Weitere Details und Videos finden Sie unter https://beingbeyond.github.io/being-0.

English

Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Being-0: Ein humanoider Roboteragent mit Vision-Sprache-Modellen und modularen Fähigkeiten

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Zusammenfassung

Ausgewählte Artikel

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report

Support

Support

Zusammenfassung

Ausgewählte Artikel

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement LearningDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer BerichtQwen2.5 Technical Report

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report