IGOR: Bildzielrepräsentationen sind die atomaren Steuereinheiten für Grundmodelle in verkörperter KI.
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI
October 17, 2024
Autoren: Xiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian
cs.AI
Zusammenfassung
Wir stellen Image-GOal-Repräsentationen (IGOR) vor, die darauf abzielen, einen vereinheitlichten, semantisch konsistenten Aktionsraum über Menschen und verschiedene Roboter hinweg zu erlernen. Durch diesen vereinheitlichten latenten Aktionsraum ermöglicht IGOR den Wissenstransfer zwischen umfangreichen Roboter- und menschlichen Aktivitätsdaten. Dies erreichen wir, indem wir visuelle Veränderungen zwischen einem Ausgangsbild und seinem Zielzustand in latente Aktionen komprimieren. IGOR ermöglicht es uns, latente Aktionslabels für Video-Daten im Internetmaßstab zu generieren. Dieser vereinheitlichte latente Aktionsraum ermöglicht das Training von Grundlagenrichtlinien und Weltmodellen über eine Vielzahl von Aufgaben, die sowohl von Robotern als auch von Menschen ausgeführt werden. Wir zeigen, dass: (1) IGOR einen semantisch konsistenten Aktionsraum für Menschen und Roboter erlernt, der verschiedene mögliche Bewegungen von Objekten charakterisiert, die das physikalische Interaktionswissen repräsentieren; (2) IGOR kann die Bewegungen des Objekts in einem Video auf andere Videos übertragen, sogar zwischen Menschen und Robotern, indem es das latente Aktionsmodell und das Weltmodell gemeinsam verwendet; (3) IGOR kann lernen, latente Aktionen mit natürlicher Sprache durch das Grundlagenrichtlinienmodell abzustimmen und latente Aktionen mit einem Niedrig-Ebene-Richtlinienmodell zu integrieren, um eine effektive Robotersteuerung zu erreichen. Wir glauben, dass IGOR neue Möglichkeiten für den Wissenstransfer und die Steuerung von Mensch zu Roboter eröffnet.
English
We introduce Image-GOal Representations (IGOR), aiming to learn a unified,
semantically consistent action space across human and various robots. Through
this unified latent action space, IGOR enables knowledge transfer among
large-scale robot and human activity data. We achieve this by compressing
visual changes between an initial image and its goal state into latent actions.
IGOR allows us to generate latent action labels for internet-scale video data.
This unified latent action space enables the training of foundation policy and
world models across a wide variety of tasks performed by both robots and
humans. We demonstrate that: (1) IGOR learns a semantically consistent action
space for both human and robots, characterizing various possible motions of
objects representing the physical interaction knowledge; (2) IGOR can "migrate"
the movements of the object in the one video to other videos, even across human
and robots, by jointly using the latent action model and world model; (3) IGOR
can learn to align latent actions with natural language through the foundation
policy model, and integrate latent actions with a low-level policy model to
achieve effective robot control. We believe IGOR opens new possibilities for
human-to-robot knowledge transfer and control.Summary
AI-Generated Summary