Ripensando alla Riduzione dei Token nei Modelli di Linguaggio Basati su Trasformatori: Verso un Paradigma Unificato per l'Accelerazione Senza Addestramento

Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

November 26, 2024
Autori: Yuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang
cs.AI

Abstract

Per accelerare l'elaborazione delle inferenze dei pesanti Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), questo studio riconsidera il panorama attuale della ricerca di riduzione dei token senza addestramento. Siamo spiacenti di constatare che i componenti critici dei metodi esistenti sono strettamente interconnessi, con le loro interazioni ed effetti che rimangono poco chiari per confronti, trasferimenti ed espansioni. Pertanto, proponiamo un paradigma unificato ''filtrare-correlare-comprimere'' che scompone la riduzione dei token in tre fasi distinte all'interno di un flusso di lavoro, mantenendo obiettivi e elementi di progettazione coerenti consentendo al contempo implementazioni uniche. Inoltre, demistifichiamo i lavori popolari e li includiamo nel nostro paradigma per mostrare la sua universalità. Infine, offriamo una serie di metodi basati sul paradigma, bilanciando velocità e accuratezza durante le diverse fasi dell'elaborazione delle inferenze. I risultati sperimentali su 10 benchmark indicano che i nostri metodi possono ottenere fino all'82,4% di riduzione delle FLOP con un impatto minimo sulle prestazioni, superando contemporaneamente i metodi senza addestramento all'avanguardia. La pagina del nostro progetto si trova su https://ficoco-accelerate.github.io/.
English
To accelerate the inference of heavy Multimodal Large Language Models (MLLMs), this study rethinks the current landscape of training-free token reduction research. We regret to find that the critical components of existing methods are tightly intertwined, with their interconnections and effects remaining unclear for comparison, transfer, and expansion. Therefore, we propose a unified ''filter-correlate-compress'' paradigm that decomposes the token reduction into three distinct stages within a pipeline, maintaining consistent design objectives and elements while allowing for unique implementations. We additionally demystify the popular works and subsume them into our paradigm to showcase its universality. Finally, we offer a suite of methods grounded in the paradigm, striking a balance between speed and accuracy throughout different phases of the inference. Experimental results across 10 benchmarks indicate that our methods can achieve up to an 82.4% reduction in FLOPs with a minimal impact on performance, simultaneously surpassing state-of-the-art training-free methods. Our project page is at https://ficoco-accelerate.github.io/.

Summary

AI-Generated Summary

Panoramica del Paper

Contributo Principale

  • Introduzione di un paradigma unificato "filtra-correla-comprimi" per la riduzione dei token nei Multimodal Large Language Models (MLLMs) senza necessità di addestramento.
  • Sviluppo di una serie di metodi chiamati FiCoCo che riducono i token in diverse fasi dell'inferenza degli MLLM.
  • Dimostrazione empirica che FiCoCo riduce significativamente i FLOPs mantenendo alte prestazioni.

Contesto di Ricerca

  • I MLLM affrontano sfide computazionali dovute alla complessità quadratica rispetto alla lunghezza delle sequenze.
  • Le tecniche esistenti per la riduzione dei token sono spesso accoppiate e mancano di flessibilità e chiarezza.

Parole Chiave

  • Riduzione dei token, MLLM, accelerazione senza addestramento, paradigma unificato, FiCoCo.

Background

Lacuna di Ricerca

  • Mancanza di un approccio unificato per la riduzione dei token nei MLLM.
  • Difficoltà nel confrontare e trasferire elementi di design tra metodi esistenti.

Sfide Tecniche

  • Complessità computazionale elevata nei MLLM.
  • Necessità di bilanciare efficienza e accuratezza nella riduzione dei token.

Approcci Precedenti

  • ToMe: Fusione di token basata sulla similarità coseno.
  • EViT: Conservazione dei token con i valori di attenzione più alti.
  • FastV: Potatura dei token basata sui valori medi di attenzione.

Metodologia

Architettura Tecnica

  • Paradigma "filtra-correla-comprimi" che scompone la riduzione dei token in tre fasi distinte.

Dettagli di Implementazione

  • Fase 1: Filtra: Calcolo dei punteggi di ridondanza per identificare i token da scartare.
  • Fase 2: Correla: Costruzione di una matrice di correlazione per preservare le informazioni.
  • Fase 3: Comprimi: Aggiornamento dei token correlati con una media ponderata.

Punti di Innovazione

  • Decomponibilità: Scomposizione della riduzione dei token in fasi standardizzate.
  • Flessibilità: Possibilità di personalizzare ogni fase per adattarsi a diversi metodi.
  • Comprensibilità: Ogni fase ha obiettivi e elementi di design ben definiti.

Risultati

Setup Sperimentale

  • Valutazione su 10 benchmark multimodali utilizzando LLaVA-1.5-7B/13B.
  • Confronto con metodi state-of-the-art sia con che senza addestramento.

Risultati Chiave

  • FiCoCo supera i metodi esistenti in termini di efficienza e accuratezza.
  • Riduzione dei FLOPs fino all'82.4% con un impatto minimo sulle prestazioni.

Limitazioni

  • Perdita inevitabile di informazioni visive durante la riduzione dei token.
  • Necessità di ulteriori ottimizzazioni per scenari con un numero elevato di token testuali.

Conclusione

  • Il paradigma "filtra-correla-comprimi" offre un approccio unificato e flessibile per la riduzione dei token nei MLLM.
  • FiCoCo dimostra un equilibrio ottimale tra efficienza e accuratezza, aprendo la strada a ulteriori miglioramenti nell'accelerazione dei modelli multimodali.

Articoli in Evidenza

DeepSeek-R1: Incentivizzare la capacità di ragionamento nei LLM tramite Apprendimento per Rinforzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253735

Rapporto Tecnico Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: Scalare i modelli di base con attenzione lampeggiante
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252846

PDF202November 27, 2024