DeeR-VLA: Dynamische Inferentie van Multimodale Grote Taalmodellen voor Efficiënte Robotuitvoering
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
November 4, 2024
Auteurs: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
cs.AI
Samenvatting
MLLM's hebben opmerkelijke begrips- en redeneervaardigheden aangetoond met complexe taal- en visuele data. Deze vooruitgang heeft de visie aangewakkerd om een generalistische robot MLLM op te zetten die bedreven is in het begrijpen van complexe menselijke instructies en het uitvoeren van verschillende fysieke taken. Het ontwikkelen van MLLM's voor echte robots is echter uitdagend vanwege de doorgaans beperkte reken- en geheugencapaciteiten die beschikbaar zijn op robotplatforms. In tegenstelling hiermee omvat de inferentie van MLLM's het opslaan van miljarden parameters en het uitvoeren van enorme berekeningen, wat aanzienlijke hardware-eisen met zich meebrengt. In ons artikel stellen we een Dynamisch Vroegtijdig Stopkader voor het Robotische Visie-Taal-Actie Model (DeeR-VLA, of simpelweg DeeR) voor dat automatisch de grootte van de geactiveerde MLLM aanpast op basis van elke situatie. De aanpak maakt gebruik van een multi-stop architectuur in MLLM's, waardoor het model de verwerking kan beëindigen zodra een juiste grootte van het model is geactiveerd voor een specifieke situatie, waardoor verdere overbodige berekeningen worden vermeden. Daarnaast ontwikkelen we nieuwe algoritmen die vroegtijdige stopcriteria vaststellen voor DeeR, afhankelijk van vooraf gedefinieerde eisen zoals gemiddelde berekeningskosten (d.w.z. energieverbruik), evenals piek-berekeningsverbruik (d.w.z. latentie) en GPU-geheugengebruik. Deze verbeteringen zorgen ervoor dat DeeR efficiënt werkt onder variërende resourcebeperkingen terwijl het concurrerende prestaties behoudt. Op de CALVIN robot manipulatie benchmark vertoont DeeR aanzienlijke verminderingen in berekeningskosten van LLM met 5,2-6,5x en GPU-geheugen van LLM met 2-6x zonder prestatieverlies. Code en checkpoints zijn beschikbaar op https://github.com/yueyang130/DeeR-VLA.
English
MLLMs have demonstrated remarkable comprehension and reasoning capabilities
with complex language and visual data. These advances have spurred the vision
of establishing a generalist robotic MLLM proficient in understanding complex
human instructions and accomplishing various embodied tasks. However,
developing MLLMs for real-world robots is challenging due to the typically
limited computation and memory capacities available on robotic platforms. In
contrast, the inference of MLLMs involves storing billions of parameters and
performing tremendous computation, imposing significant hardware demands. In
our paper, we propose a Dynamic Early-Exit Framework for Robotic
Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically
adjusts the size of the activated MLLM based on each situation at hand. The
approach leverages a multi-exit architecture in MLLMs, which allows the model
to terminate processing once a proper size of the model has been activated for
a specific situation, thus avoiding further redundant computation.
Additionally, we develop novel algorithms that establish early-termination
criteria for DeeR, conditioned on predefined demands such as average
computational cost (i.e., power consumption), as well as peak computational
consumption (i.e., latency) and GPU memory usage. These enhancements ensure
that DeeR operates efficiently under varying resource constraints while
maintaining competitive performance. On the CALVIN robot manipulation
benchmark, DeeR demonstrates significant reductions in computational costs of
LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance.
Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.Summary
AI-Generated Summary