Open-World-Fähigkeitsentdeckung aus unsegmentierten Demonstrationen

Zusammenfassung

Das Erlernen von Fähigkeiten in offenen Umgebungen ist entscheidend für die Entwicklung von Agenten, die in der Lage sind, eine Vielzahl von Aufgaben durch die Kombination grundlegender Fähigkeiten zu bewältigen. Online-Demonstrationsvideos sind in der Regel lang, aber unsegmentiert, was es schwierig macht, sie zu segmentieren und mit Fähigkeitskennzeichnungen zu versehen. Im Gegensatz zu bestehenden Methoden, die auf Sequenzstichproben oder menschliche Kennzeichnung angewiesen sind, haben wir einen selbstüberwachten Lernansatz entwickelt, um diese langen Videos in eine Reihe von semantisch bewussten und fähigkeitskonsistenten Segmenten zu unterteilen. Inspiriert von der menschlichen kognitiven Ereignissegmentierungstheorie führen wir Skill Boundary Detection (SBD) ein, einen annotierungsfreien temporalen Video-Segmentierungsalgorithmus. SBD erkennt Fähigkeitsgrenzen in einem Video, indem es Vorhersagefehler eines vortrainierten unbedingten Aktionsvorhersagemodells nutzt. Dieser Ansatz basiert auf der Annahme, dass ein signifikanter Anstieg des Vorhersagefehlers einen Wechsel in der ausgeführten Fähigkeit anzeigt. Wir haben unsere Methode in Minecraft, einem umfangreichen Open-World-Simulator mit zahlreichen verfügbaren Gameplay-Videos, evaluiert. Unsere SBD-generierten Segmente verbesserten die durchschnittliche Leistung konditionierter Richtlinien um 63,7 % und 52,1 % bei kurzfristigen atomaren Fähigkeitsaufgaben sowie ihrer entsprechenden hierarchischen Agenten um 11,3 % und 20,8 % bei langfristigen Aufgaben. Unsere Methode kann die vielfältigen YouTube-Videos nutzen, um befehlsfolgende Agenten zu trainieren. Die Projektseite ist unter https://craftjarvis.github.io/SkillDiscovery zu finden.

English

Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.

Open-World-Fähigkeitsentdeckung aus unsegmentierten Demonstrationen

Open-World Skill Discovery from Unsegmented Demonstrations

Zusammenfassung

Summary

Support

Support