DeeR-VLA: Dynamische Inferenz von multimodalen großen Sprachmodellen für effiziente Roboter-Ausführung
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
November 4, 2024
Autoren: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
cs.AI
Zusammenfassung
MLLMs haben bemerkenswerte Verständnis- und Schlussfolgerungsfähigkeiten bei komplexen Sprach- und visuellen Daten gezeigt. Diese Fortschritte haben die Vision vorangetrieben, einen generalistischen robotischen MLLM zu etablieren, der komplexe menschliche Anweisungen versteht und verschiedene körperliche Aufgaben erfüllen kann. Die Entwicklung von MLLMs für reale Roboter ist jedoch herausfordernd aufgrund der in der Regel begrenzten Rechen- und Speicherkapazitäten auf Roboterplattformen. Im Gegensatz dazu erfordert die Inferenz von MLLMs das Speichern von Milliarden von Parametern und die Durchführung enormer Berechnungen, was erhebliche Hardwareanforderungen mit sich bringt. In unserem Paper schlagen wir ein Dynamisches Frühabbruch-Framework für das Roboter-Vision-Sprache-Aktion-Modell (DeeR-VLA oder einfach DeeR) vor, das automatisch die Größe des aktivierten MLLM basierend auf jeder vorliegenden Situation anpasst. Der Ansatz nutzt eine Multi-Exit-Architektur in MLLMs, die es dem Modell ermöglicht, die Verarbeitung zu beenden, sobald eine angemessene Größe des Modells für eine spezifische Situation aktiviert wurde, um so weitere redundante Berechnungen zu vermeiden. Zusätzlich entwickeln wir neuartige Algorithmen, die Frühabbruchkriterien für DeeR festlegen, abhängig von vordefinierten Anforderungen wie durchschnittlichen Rechenkosten (d. h. Leistungsverbrauch), sowie Spitzenrechenverbrauch (d. h. Latenz) und GPU-Speicherauslastung. Diese Verbesserungen gewährleisten, dass DeeR effizient unter variablen Ressourcenbeschränkungen arbeitet und dabei eine wettbewerbsfähige Leistung beibehält. Im CALVIN-Roboter-Manipulationsbenchmark zeigt DeeR signifikante Reduzierungen der Rechenkosten des MLLM um das 5,2-6,5-fache und des GPU-Speichers des MLLM um das 2-6-fache, ohne die Leistung zu beeinträchtigen. Der Code und die Checkpoints sind unter https://github.com/yueyang130/DeeR-VLA verfügbar.
English
MLLMs have demonstrated remarkable comprehension and reasoning capabilities
with complex language and visual data. These advances have spurred the vision
of establishing a generalist robotic MLLM proficient in understanding complex
human instructions and accomplishing various embodied tasks. However,
developing MLLMs for real-world robots is challenging due to the typically
limited computation and memory capacities available on robotic platforms. In
contrast, the inference of MLLMs involves storing billions of parameters and
performing tremendous computation, imposing significant hardware demands. In
our paper, we propose a Dynamic Early-Exit Framework for Robotic
Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically
adjusts the size of the activated MLLM based on each situation at hand. The
approach leverages a multi-exit architecture in MLLMs, which allows the model
to terminate processing once a proper size of the model has been activated for
a specific situation, thus avoiding further redundant computation.
Additionally, we develop novel algorithms that establish early-termination
criteria for DeeR, conditioned on predefined demands such as average
computational cost (i.e., power consumption), as well as peak computational
consumption (i.e., latency) and GPU memory usage. These enhancements ensure
that DeeR operates efficiently under varying resource constraints while
maintaining competitive performance. On the CALVIN robot manipulation
benchmark, DeeR demonstrates significant reductions in computational costs of
LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance.
Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.Summary
AI-Generated Summary