Open-World-Fähigkeitsentdeckung aus unsegmentierten Demonstrationen
Open-World Skill Discovery from Unsegmented Demonstrations
March 11, 2025
Autoren: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI
Zusammenfassung
Das Erlernen von Fähigkeiten in offenen Umgebungen ist entscheidend für die Entwicklung von Agenten, die in der Lage sind, eine Vielzahl von Aufgaben durch die Kombination grundlegender Fähigkeiten zu bewältigen. Online-Demonstrationsvideos sind in der Regel lang, aber unsegmentiert, was es schwierig macht, sie zu segmentieren und mit Fähigkeitskennzeichnungen zu versehen. Im Gegensatz zu bestehenden Methoden, die auf Sequenzstichproben oder menschliche Kennzeichnung angewiesen sind, haben wir einen selbstüberwachten Lernansatz entwickelt, um diese langen Videos in eine Reihe von semantisch bewussten und fähigkeitskonsistenten Segmenten zu unterteilen. Inspiriert von der menschlichen kognitiven Ereignissegmentierungstheorie führen wir Skill Boundary Detection (SBD) ein, einen annotierungsfreien temporalen Video-Segmentierungsalgorithmus. SBD erkennt Fähigkeitsgrenzen in einem Video, indem es Vorhersagefehler eines vortrainierten unbedingten Aktionsvorhersagemodells nutzt. Dieser Ansatz basiert auf der Annahme, dass ein signifikanter Anstieg des Vorhersagefehlers einen Wechsel in der ausgeführten Fähigkeit anzeigt. Wir haben unsere Methode in Minecraft, einem umfangreichen Open-World-Simulator mit zahlreichen verfügbaren Gameplay-Videos, evaluiert. Unsere SBD-generierten Segmente verbesserten die durchschnittliche Leistung konditionierter Richtlinien um 63,7 % und 52,1 % bei kurzfristigen atomaren Fähigkeitsaufgaben sowie ihrer entsprechenden hierarchischen Agenten um 11,3 % und 20,8 % bei langfristigen Aufgaben. Unsere Methode kann die vielfältigen YouTube-Videos nutzen, um befehlsfolgende Agenten zu trainieren. Die Projektseite ist unter https://craftjarvis.github.io/SkillDiscovery zu finden.
English
Learning skills in open-world environments is essential for developing agents
capable of handling a variety of tasks by combining basic skills. Online
demonstration videos are typically long but unsegmented, making them difficult
to segment and label with skill identifiers. Unlike existing methods that rely
on sequence sampling or human labeling, we have developed a self-supervised
learning-based approach to segment these long videos into a series of
semantic-aware and skill-consistent segments. Drawing inspiration from human
cognitive event segmentation theory, we introduce Skill Boundary Detection
(SBD), an annotation-free temporal video segmentation algorithm. SBD detects
skill boundaries in a video by leveraging prediction errors from a pretrained
unconditional action-prediction model. This approach is based on the assumption
that a significant increase in prediction error indicates a shift in the skill
being executed. We evaluated our method in Minecraft, a rich open-world
simulator with extensive gameplay videos available online. Our SBD-generated
segments improved the average performance of conditioned policies by 63.7% and
52.1% on short-term atomic skill tasks, and their corresponding hierarchical
agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the
diverse YouTube videos to train instruction-following agents. The project page
can be found in https://craftjarvis.github.io/SkillDiscovery.Summary
AI-Generated Summary