DeeR-VLA: Dynamische Inferentie van Multimodale Grote Taalmodellen voor Efficiënte Robotuitvoering

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

November 4, 2024
Auteurs: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
cs.AI

Samenvatting

MLLM's hebben opmerkelijke begrips- en redeneervaardigheden aangetoond met complexe taal- en visuele data. Deze vooruitgang heeft de visie aangewakkerd om een generalistische robot MLLM op te zetten die bedreven is in het begrijpen van complexe menselijke instructies en het uitvoeren van verschillende fysieke taken. Het ontwikkelen van MLLM's voor echte robots is echter uitdagend vanwege de doorgaans beperkte reken- en geheugencapaciteiten die beschikbaar zijn op robotplatforms. In tegenstelling hiermee omvat de inferentie van MLLM's het opslaan van miljarden parameters en het uitvoeren van enorme berekeningen, wat aanzienlijke hardware-eisen met zich meebrengt. In ons artikel stellen we een Dynamisch Vroegtijdig Stopkader voor het Robotische Visie-Taal-Actie Model (DeeR-VLA, of simpelweg DeeR) voor dat automatisch de grootte van de geactiveerde MLLM aanpast op basis van elke situatie. De aanpak maakt gebruik van een multi-stop architectuur in MLLM's, waardoor het model de verwerking kan beëindigen zodra een juiste grootte van het model is geactiveerd voor een specifieke situatie, waardoor verdere overbodige berekeningen worden vermeden. Daarnaast ontwikkelen we nieuwe algoritmen die vroegtijdige stopcriteria vaststellen voor DeeR, afhankelijk van vooraf gedefinieerde eisen zoals gemiddelde berekeningskosten (d.w.z. energieverbruik), evenals piek-berekeningsverbruik (d.w.z. latentie) en GPU-geheugengebruik. Deze verbeteringen zorgen ervoor dat DeeR efficiënt werkt onder variërende resourcebeperkingen terwijl het concurrerende prestaties behoudt. Op de CALVIN robot manipulatie benchmark vertoont DeeR aanzienlijke verminderingen in berekeningskosten van LLM met 5,2-6,5x en GPU-geheugen van LLM met 2-6x zonder prestatieverlies. Code en checkpoints zijn beschikbaar op https://github.com/yueyang130/DeeR-VLA.
English
MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

Summary

AI-Generated Summary

PDF122November 13, 2024