JARVIS-VLA: Nachträgliches Training großskaliger visueller Sprachmodelle zur Bedienung visueller Spiele mit Tastatur und Maus
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
March 20, 2025
Autoren: Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang
cs.AI
Zusammenfassung
Kürzlich hat die aktionsbasierte Entscheidungsfindung in offenen Umgebungen erhebliche Aufmerksamkeit erlangt. Visuelle Sprach-Aktions-Modelle (Visual Language Action, VLA), die auf groß angelegten Webdatensätzen vortrainiert wurden, haben vielversprechende Ergebnisse bei Entscheidungsaufgaben gezeigt. Bisher lag der Fokus jedoch hauptsächlich auf der Nachschulung von Aktionen, wobei Verbesserungen am zugrunde liegenden Modell selbst oft vernachlässigt wurden. Als Antwort darauf stellen wir einen neuartigen Ansatz vor, „Act from Visual Language Post-Training“, der Visuelle Sprachmodelle (Visual Language Models, VLMs) durch visuelle und sprachliche Anleitung in einer selbstüberwachten Weise verfeinert. Diese Verbesserung steigert die Fähigkeiten der Modelle in Bezug auf Weltwissen, visuelle Erkennung und räumliche Verankerung in offenen Umgebungen. Basierend auf den oben genannten Nachschulungsparadigmen erhalten wir die ersten VLA-Modelle in Minecraft, die menschliche Anweisungen für über 1.000 verschiedene atomare Aufgaben befolgen können, darunter Handwerk, Schmelzen, Kochen, Bergbau und Töten. Unsere Experimente zeigen, dass die Nachschulung auf nicht-trajektorischen Aufgaben zu einer signifikanten Verbesserung von 40 % gegenüber der besten Agenten-Baseline bei einer Vielzahl von atomaren Aufgaben führt. Darüber hinaus demonstrieren wir, dass unser Ansatz traditionelle, auf Imitationslernen basierende Strategien in Minecraft übertrifft und state-of-the-art Leistung erzielt. Wir haben den Code, die Modelle und die Datensätze veröffentlicht, um weitere Forschungen zu fördern. Die Projektseite ist unter https://craftjarvis.github.io/JarvisVLA zu finden.
English
Recently, action-based decision-making in open-world environments has gained
significant attention. Visual Language Action (VLA) models, pretrained on
large-scale web datasets, have shown promise in decision-making tasks. However,
previous work has primarily focused on action post-training, often neglecting
enhancements to the foundational model itself. In response, we introduce a
novel approach, Act from Visual Language Post-Training, which refines Visual
Language Models (VLMs) through visual and linguistic guidance in a
self-supervised manner. This enhancement improves the models' capabilities in
world knowledge, visual recognition, and spatial grounding in open-world
environments. Following the above post-training paradigms, we obtain the first
VLA models in Minecraft that can follow human instructions on over 1k different
atomic tasks, including crafting, smelting, cooking, mining, and killing. Our
experiments demonstrate that post-training on non-trajectory tasks leads to a
significant 40% improvement over the best agent baseline on a diverse set of
atomic tasks. Furthermore, we demonstrate that our approach surpasses
traditional imitation learning-based policies in Minecraft, achieving
state-of-the-art performance. We have open-sourced the code, models, and
datasets to foster further research. The project page can be found in
https://craftjarvis.github.io/JarvisVLA.Summary
AI-Generated Summary