DeeR-VLA: Inferenza Dinamica di Modelli Linguistici Multimodali di Grandi Dimensioni per l'Esecuzione Efficiente dei Robot

Abstract

Le MLLM hanno dimostrato notevoli capacità di comprensione e ragionamento con dati complessi linguistici e visivi. Questi progressi hanno alimentato la visione di stabilire un robot generalista MLLM competente nella comprensione di istruzioni umane complesse e nell'esecuzione di varie attività incarnate. Tuttavia, lo sviluppo di MLLM per robot del mondo reale è impegnativo a causa delle limitate capacità di calcolo e memoria tipicamente disponibili sulle piattaforme robotiche. Al contrario, l'inferenza dei MLLM comporta la memorizzazione di miliardi di parametri e l'esecuzione di un'enorme computazione, imponendo significative esigenze hardware. Nel nostro articolo, proponiamo un Quadro Dinamico di Uscita Anticipata per il Modello di Visione-Linguaggio-Azione Robotico (DeeR-VLA, o semplicemente DeeR) che regola automaticamente le dimensioni del MLLM attivato in base a ciascuna situazione in corso. L'approccio sfrutta un'architettura multi-uscita nei MLLM, che consente al modello di interrompere l'elaborazione una volta attivata la dimensione adeguata del modello per una situazione specifica, evitando così ulteriori computazioni ridondanti. Inoltre, sviluppiamo nuovi algoritmi che stabiliscono criteri di terminazione anticipata per DeeR, condizionati a esigenze predefinite come il costo computazionale medio (cioè, consumo energetico), nonché il consumo computazionale massimo (cioè, latenza) e l'utilizzo della memoria GPU. Questi miglioramenti garantiscono che DeeR operi in modo efficiente sotto vincoli di risorse variabili mantenendo prestazioni competitive. Nel benchmark di manipolazione robotica CALVIN, DeeR dimostra significative riduzioni nei costi computazionali di LLM del 5,2-6,5 volte e nella memoria GPU di LLM del 2-6 volte senza compromettere le prestazioni. Il codice e i checkpoint sono disponibili su https://github.com/yueyang130/DeeR-VLA.

English

MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

DeeR-VLA: Inferenza Dinamica di Modelli Linguistici Multimodali di Grandi Dimensioni per l'Esecuzione Efficiente dei Robot

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Abstract

Summary

Support