LLaMA-3.2-Vision Efficiente attraverso il Taglio delle Caratteristiche Visive Elaborate da Cross-Attention

Abstract

La riduzione dei token visivi abbassa i costi di inferenza causati dalle estese caratteristiche delle immagini nei grandi modelli visione-linguaggio (LVLM). A differenza degli studi rilevanti che eliminano i token nei LVLM basati esclusivamente su self-attention, il nostro lavoro affronta in modo unico i modelli basati su cross-attention, che raggiungono prestazioni superiori. Identifichiamo che la dimensione della cache chiave-valore (KV) per i token delle immagini nei livelli di cross-attention supera significativamente quella dei token di testo nei livelli di self-attention, rappresentando un importante collo di bottiglia computazionale. Per mitigare questo problema, sfruttiamo la natura sparsa delle mappe di cross-attention per eliminare selettivamente le caratteristiche visive ridondanti. Il nostro Trimmed Llama riduce efficacemente le richieste della cache KV senza necessitare di ulteriore addestramento. Beneficiando di una riduzione del 50% delle caratteristiche visive, il nostro modello può ridurre la latenza di inferenza e l'utilizzo della memoria mantenendo prestazioni in linea con i benchmark.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

LLaMA-3.2-Vision Efficiente attraverso il Taglio delle Caratteristiche Visive Elaborate da Cross-Attention

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Abstract

Summary

Support

Support