JARVIS-VLA: Nachträgliches Training großskaliger visueller Sprachmodelle zur Bedienung visueller Spiele mit Tastatur und Maus

Zusammenfassung

Kürzlich hat die aktionsbasierte Entscheidungsfindung in offenen Umgebungen erhebliche Aufmerksamkeit erlangt. Visuelle Sprach-Aktions-Modelle (Visual Language Action, VLA), die auf groß angelegten Webdatensätzen vortrainiert wurden, haben vielversprechende Ergebnisse bei Entscheidungsaufgaben gezeigt. Bisher lag der Fokus jedoch hauptsächlich auf der Nachschulung von Aktionen, wobei Verbesserungen am zugrunde liegenden Modell selbst oft vernachlässigt wurden. Als Antwort darauf stellen wir einen neuartigen Ansatz vor, „Act from Visual Language Post-Training“, der Visuelle Sprachmodelle (Visual Language Models, VLMs) durch visuelle und sprachliche Anleitung in einer selbstüberwachten Weise verfeinert. Diese Verbesserung steigert die Fähigkeiten der Modelle in Bezug auf Weltwissen, visuelle Erkennung und räumliche Verankerung in offenen Umgebungen. Basierend auf den oben genannten Nachschulungsparadigmen erhalten wir die ersten VLA-Modelle in Minecraft, die menschliche Anweisungen für über 1.000 verschiedene atomare Aufgaben befolgen können, darunter Handwerk, Schmelzen, Kochen, Bergbau und Töten. Unsere Experimente zeigen, dass die Nachschulung auf nicht-trajektorischen Aufgaben zu einer signifikanten Verbesserung von 40 % gegenüber der besten Agenten-Baseline bei einer Vielzahl von atomaren Aufgaben führt. Darüber hinaus demonstrieren wir, dass unser Ansatz traditionelle, auf Imitationslernen basierende Strategien in Minecraft übertrifft und state-of-the-art Leistung erzielt. Wir haben den Code, die Modelle und die Datensätze veröffentlicht, um weitere Forschungen zu fördern. Die Projektseite ist unter https://craftjarvis.github.io/JarvisVLA zu finden.

English

Recently, action-based decision-making in open-world environments has gained significant attention. Visual Language Action (VLA) models, pretrained on large-scale web datasets, have shown promise in decision-making tasks. However, previous work has primarily focused on action post-training, often neglecting enhancements to the foundational model itself. In response, we introduce a novel approach, Act from Visual Language Post-Training, which refines Visual Language Models (VLMs) through visual and linguistic guidance in a self-supervised manner. This enhancement improves the models' capabilities in world knowledge, visual recognition, and spatial grounding in open-world environments. Following the above post-training paradigms, we obtain the first VLA models in Minecraft that can follow human instructions on over 1k different atomic tasks, including crafting, smelting, cooking, mining, and killing. Our experiments demonstrate that post-training on non-trajectory tasks leads to a significant 40% improvement over the best agent baseline on a diverse set of atomic tasks. Furthermore, we demonstrate that our approach surpasses traditional imitation learning-based policies in Minecraft, achieving state-of-the-art performance. We have open-sourced the code, models, and datasets to foster further research. The project page can be found in https://craftjarvis.github.io/JarvisVLA.

JARVIS-VLA: Nachträgliches Training großskaliger visueller Sprachmodelle zur Bedienung visueller Spiele mit Tastatur und Maus

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Zusammenfassung

Summary

Support