Tensor-Produkt-Aufmerksamkeit ist alles, was Sie brauchen.

Tensor Product Attention Is All You Need

January 11, 2025
Autoren: Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI

Zusammenfassung

Die Skalierung von Sprachmodellen, um längere Eingabesequenzen zu verarbeiten, erfordert in der Regel große Schlüssel-Wert (KV)-Caches, was zu erheblichem Speicheroverhead während der Inferenz führt. In diesem Paper schlagen wir Tensor-Produkt-Aufmerksamkeit (TPA) vor, einen neuartigen Aufmerksamkeitsmechanismus, der Tensorzerlegungen verwendet, um Anfragen, Schlüssel und Werte kompakt darzustellen und somit die Größe des KV-Caches zur Inferenzzeit signifikant zu reduzieren. Durch die Faktorisierung dieser Darstellungen in kontextuelle niederdimensionale Komponenten (kontextuelle Faktorisierung) und die nahtlose Integration mit RoPE erzielt TPA eine verbesserte Modellqualität neben Speichereffizienz. Basierend auf TPA stellen wir den Tensor-Produkt-Aufmerksamkeits-Transformer (T6) vor, eine neue Modellarchitektur für Sequenzmodellierung. Durch umfangreiche empirische Evaluationen von Sprachmodellierungsaufgaben zeigen wir, dass T6 die Leistung von Standard-Transformer-Baselines wie MHA, MQA, GQA und MLA in verschiedenen Metriken, einschließlich Perplexität und einer Reihe renommierter Evaluierungsbenchmarks, übertrifft. Bemerkenswert ist, dass die Speichereffizienz von TPA die Verarbeitung von deutlich längeren Sequenzen unter festen Ressourcenbeschränkungen ermöglicht und somit eine wichtige Skalierbarkeitsherausforderung bei modernen Sprachmodellen angeht. Der Code ist verfügbar unter https://github.com/tensorgi/T6.
English
Scaling language models to handle longer input sequences typically necessitates large key-value (KV) caches, resulting in substantial memory overhead during inference. In this paper, we propose Tensor Product Attention (TPA), a novel attention mechanism that uses tensor decompositions to represent queries, keys, and values compactly, significantly shrinking KV cache size at inference time. By factorizing these representations into contextual low-rank components (contextual factorization) and seamlessly integrating with RoPE, TPA achieves improved model quality alongside memory efficiency. Based on TPA, we introduce the Tensor ProducT ATTenTion Transformer (T6), a new model architecture for sequence modeling. Through extensive empirical evaluation of language modeling tasks, we demonstrate that T6 exceeds the performance of standard Transformer baselines including MHA, MQA, GQA, and MLA across various metrics, including perplexity and a range of renowned evaluation benchmarks. Notably, TPAs memory efficiency enables the processing of significantly longer sequences under fixed resource constraints, addressing a critical scalability challenge in modern language models. The code is available at https://github.com/tensorgi/T6.

Summary

AI-Generated Summary

Paper Overview

Core Contribution

  • Einführung von Tensor Product Attention (TPA), einem neuartigen Aufmerksamkeitsmechanismus, der Tensor-Zerlegungen verwendet, um Abfragen, Schlüssel und Werte kompakt darzustellen.
  • Signifikante Reduzierung der KV-Cache-Größe während der Inferenz durch kontextuelle Faktorisierung.
  • Einführung des Tensor ProducTATTenTionTransformer (T6), einer neuen Modellarchitektur für Sequenzmodellierung.
  • Verbesserte Modellqualität und Speichereffizienz durch nahtlose Integration mit RoPE (Rotary Position Embedding).

Research Context

  • Skalierung von Sprachmodellen zur Verarbeitung längerer Eingabesequenzen.
  • Herausforderungen durch große KV-Caches und hohen Speicherbedarf während der Inferenz.
  • Vergleich mit bestehenden Ansätzen wie MHA, MQA, GQA und MLA.

Keywords

  • Tensor Product Attention (TPA)
  • KV-Cache
  • RoPE
  • Sequenzmodellierung
  • Speichereffizienz

Hintergrund

Forschungslücke

  • Begrenzte Fähigkeit von Sprachmodellen, längere Kontexte effizient zu verarbeiten.
  • Hoher Speicherbedarf durch lineares Wachstum der KV-Cache-Größe mit der Sequenzlänge.

Technische Herausforderungen

  • Speicherüberlastung während der Inferenz.
  • Kompromisse zwischen Modellqualität und Speichereffizienz.

Vorherige Ansätze

  • Sparse Attention Patterns (Child et al., 2019)
  • Multi-Query Attention (MQA) (Shazeer, 2019)
  • Grouped-Query Attention (GQA) (Ainslie et al., 2023)
  • Multi-head Latent Attention (MLA) (Liu et al., 2024a)

Methodik

Technische Architektur

  • Faktorisierung von Abfragen, Schlüsseln und Werten in kontextuelle niedrigrangige Komponenten.
  • Integration von RoPE zur Erhaltung der relativen Positionsinformationen.

Implementierungsdetails

  • Verwendung von Tensorprodukten zur Darstellung von Q, K und V.
  • Reduzierung der KV-Cache-Größe durch Speicherung nur der faktorisierten Komponenten.

Innovationspunkte

  • Kontextuelle Faktorisierung von Aktivierungen statt statischer Gewichte.
  • Nahtlose Integration mit RoPE für einfache Übernahme in bestehende LLM-Architekturen.

Ergebnisse

Experimenteller Aufbau

  • Evaluation anhand von Sprachmodellierungsaufgaben.
  • Vergleich mit Standard-Transformer-Baselines (MHA, MQA, GQA, MLA).

Wichtige Erkenntnisse

  • T6 übertrifft die Leistung von Standard-Transformer-Baselines in Bezug auf Perplexität und verschiedene Evaluierungsbenchmarks.
  • TPA ermöglicht die Verarbeitung signifikant längerer Sequenzen unter festen Ressourcenbedingungen.

Einschränkungen

  • Potenzielle Komplexität bei der Implementierung der Tensor-Faktorisierung.
  • Abhängigkeit von der Effizienz der RoPE-Integration.

Ausgewählte Artikel

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu WeiFeb 27, 2024615143

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253905

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436411

PDF885January 14, 2025