IGOR: Bildzielrepräsentationen sind die atomaren Steuereinheiten für Grundmodelle in verkörperter KI.

Zusammenfassung

Wir stellen Image-GOal-Repräsentationen (IGOR) vor, die darauf abzielen, einen vereinheitlichten, semantisch konsistenten Aktionsraum über Menschen und verschiedene Roboter hinweg zu erlernen. Durch diesen vereinheitlichten latenten Aktionsraum ermöglicht IGOR den Wissenstransfer zwischen umfangreichen Roboter- und menschlichen Aktivitätsdaten. Dies erreichen wir, indem wir visuelle Veränderungen zwischen einem Ausgangsbild und seinem Zielzustand in latente Aktionen komprimieren. IGOR ermöglicht es uns, latente Aktionslabels für Video-Daten im Internetmaßstab zu generieren. Dieser vereinheitlichte latente Aktionsraum ermöglicht das Training von Grundlagenrichtlinien und Weltmodellen über eine Vielzahl von Aufgaben, die sowohl von Robotern als auch von Menschen ausgeführt werden. Wir zeigen, dass: (1) IGOR einen semantisch konsistenten Aktionsraum für Menschen und Roboter erlernt, der verschiedene mögliche Bewegungen von Objekten charakterisiert, die das physikalische Interaktionswissen repräsentieren; (2) IGOR kann die Bewegungen des Objekts in einem Video auf andere Videos übertragen, sogar zwischen Menschen und Robotern, indem es das latente Aktionsmodell und das Weltmodell gemeinsam verwendet; (3) IGOR kann lernen, latente Aktionen mit natürlicher Sprache durch das Grundlagenrichtlinienmodell abzustimmen und latente Aktionen mit einem Niedrig-Ebene-Richtlinienmodell zu integrieren, um eine effektive Robotersteuerung zu erreichen. Wir glauben, dass IGOR neue Möglichkeiten für den Wissenstransfer und die Steuerung von Mensch zu Roboter eröffnet.

English

We introduce Image-GOal Representations (IGOR), aiming to learn a unified, semantically consistent action space across human and various robots. Through this unified latent action space, IGOR enables knowledge transfer among large-scale robot and human activity data. We achieve this by compressing visual changes between an initial image and its goal state into latent actions. IGOR allows us to generate latent action labels for internet-scale video data. This unified latent action space enables the training of foundation policy and world models across a wide variety of tasks performed by both robots and humans. We demonstrate that: (1) IGOR learns a semantically consistent action space for both human and robots, characterizing various possible motions of objects representing the physical interaction knowledge; (2) IGOR can "migrate" the movements of the object in the one video to other videos, even across human and robots, by jointly using the latent action model and world model; (3) IGOR can learn to align latent actions with natural language through the foundation policy model, and integrate latent actions with a low-level policy model to achieve effective robot control. We believe IGOR opens new possibilities for human-to-robot knowledge transfer and control.

IGOR: Bildzielrepräsentationen sind die atomaren Steuereinheiten für Grundmodelle in verkörperter KI.

IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

Zusammenfassung

Support