DeeR-VLA : Inférence Dynamique de Modèles de Langage Multimodaux de Grande Taille pour une Exécution Efficace des Robots
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
November 4, 2024
Auteurs: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
cs.AI
Résumé
Les MLLMs ont démontré des capacités remarquables en compréhension et en raisonnement avec des données linguistiques et visuelles complexes. Ces avancées ont suscité la vision d'établir un robot généraliste MLLM compétent pour comprendre des instructions humaines complexes et accomplir diverses tâches incarnées. Cependant, le développement de MLLMs pour des robots réels est un défi en raison des capacités de calcul et de mémoire généralement limitées disponibles sur les plateformes robotiques. En revanche, l'inférence des MLLMs implique le stockage de milliards de paramètres et l'exécution de calculs considérables, imposant des exigences matérielles significatives. Dans notre article, nous proposons un Cadre de Sortie Anticipée Dynamique pour le Modèle Vision-Langage-Action Robotique (DeeR-VLA, ou simplement DeeR) qui ajuste automatiquement la taille du MLLM activé en fonction de chaque situation. Cette approche exploite une architecture à sorties multiples dans les MLLMs, ce qui permet au modèle de mettre fin au traitement une fois qu'une taille appropriée du modèle a été activée pour une situation spécifique, évitant ainsi des calculs redondants supplémentaires. De plus, nous développons de nouveaux algorithmes qui établissent des critères de sortie anticipée pour DeeR, conditionnés par des exigences prédéfinies telles que le coût computationnel moyen (c'est-à-dire la consommation d'énergie), ainsi que la consommation computationnelle maximale (c'est-à-dire la latence) et l'utilisation de la mémoire GPU. Ces améliorations garantissent que DeeR fonctionne efficacement sous des contraintes de ressources variables tout en maintenant des performances compétitives. Sur le banc d'essai de manipulation de robot CALVIN, DeeR démontre des réductions significatives des coûts computationnels du MLLM de 5,2 à 6,5 fois et de la mémoire GPU du MLLM de 2 à 6 fois sans compromettre les performances. Le code et les points de contrôle sont disponibles sur https://github.com/yueyang130/DeeR-VLA.
English
MLLMs have demonstrated remarkable comprehension and reasoning capabilities
with complex language and visual data. These advances have spurred the vision
of establishing a generalist robotic MLLM proficient in understanding complex
human instructions and accomplishing various embodied tasks. However,
developing MLLMs for real-world robots is challenging due to the typically
limited computation and memory capacities available on robotic platforms. In
contrast, the inference of MLLMs involves storing billions of parameters and
performing tremendous computation, imposing significant hardware demands. In
our paper, we propose a Dynamic Early-Exit Framework for Robotic
Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically
adjusts the size of the activated MLLM based on each situation at hand. The
approach leverages a multi-exit architecture in MLLMs, which allows the model
to terminate processing once a proper size of the model has been activated for
a specific situation, thus avoiding further redundant computation.
Additionally, we develop novel algorithms that establish early-termination
criteria for DeeR, conditioned on predefined demands such as average
computational cost (i.e., power consumption), as well as peak computational
consumption (i.e., latency) and GPU memory usage. These enhancements ensure
that DeeR operates efficiently under varying resource constraints while
maintaining competitive performance. On the CALVIN robot manipulation
benchmark, DeeR demonstrates significant reductions in computational costs of
LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance.
Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.Summary
AI-Generated Summary