DeeR-VLA : Inférence Dynamique de Modèles de Langage Multimodaux de Grande Taille pour une Exécution Efficace des Robots

Résumé

Les MLLMs ont démontré des capacités remarquables en compréhension et en raisonnement avec des données linguistiques et visuelles complexes. Ces avancées ont suscité la vision d'établir un robot généraliste MLLM compétent pour comprendre des instructions humaines complexes et accomplir diverses tâches incarnées. Cependant, le développement de MLLMs pour des robots réels est un défi en raison des capacités de calcul et de mémoire généralement limitées disponibles sur les plateformes robotiques. En revanche, l'inférence des MLLMs implique le stockage de milliards de paramètres et l'exécution de calculs considérables, imposant des exigences matérielles significatives. Dans notre article, nous proposons un Cadre de Sortie Anticipée Dynamique pour le Modèle Vision-Langage-Action Robotique (DeeR-VLA, ou simplement DeeR) qui ajuste automatiquement la taille du MLLM activé en fonction de chaque situation. Cette approche exploite une architecture à sorties multiples dans les MLLMs, ce qui permet au modèle de mettre fin au traitement une fois qu'une taille appropriée du modèle a été activée pour une situation spécifique, évitant ainsi des calculs redondants supplémentaires. De plus, nous développons de nouveaux algorithmes qui établissent des critères de sortie anticipée pour DeeR, conditionnés par des exigences prédéfinies telles que le coût computationnel moyen (c'est-à-dire la consommation d'énergie), ainsi que la consommation computationnelle maximale (c'est-à-dire la latence) et l'utilisation de la mémoire GPU. Ces améliorations garantissent que DeeR fonctionne efficacement sous des contraintes de ressources variables tout en maintenant des performances compétitives. Sur le banc d'essai de manipulation de robot CALVIN, DeeR démontre des réductions significatives des coûts computationnels du MLLM de 5,2 à 6,5 fois et de la mémoire GPU du MLLM de 2 à 6 fois sans compromettre les performances. Le code et les points de contrôle sont disponibles sur https://github.com/yueyang130/DeeR-VLA.

English

MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

DeeR-VLA : Inférence Dynamique de Modèles de Langage Multimodaux de Grande Taille pour une Exécution Efficace des Robots

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Résumé

Support