토큰포머: 토큰화된 모델과 함께 트랜스포머 스케일링 재고하기
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
October 30, 2024
저자: Haiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele
cs.AI
초록
트랜스포머는 다양한 영역에서 우수한 성능으로 인해 기본 모델에서 주요 아키텍처가 되었습니다. 그러나 이러한 모델의 확장에 따른 상당한 비용은 여전히 중요한 문제입니다. 이 문제는 주로 선형 프로젝션 내에서 고정된 수의 매개변수에 의존하고 있기 때문에 발생합니다. 아키텍처 수정(예: 채널 차원)이 도입되면 전체 모델을 일반적으로 처음부터 다시 훈련해야 합니다. 모델 크기가 계속 커지면 이 전략은 점점 더 높은 계산 비용을 초래하고 지속 가능하지 않아집니다. 이 문제를 극복하기 위해 우리는 TokenFormer를 소개합니다. 이는 입력 토큰 간의 계산 뿐만 아니라 토큰과 모델 매개변수 간 상호 작용을 위해 주의 메커니즘을 활용하는 네이티브 확장 가능한 아키텍처입니다. 모델 매개변수를 토큰으로 취급하여 입력 토큰이 쿼리로 작용하고 모델 매개변수가 키와 값으로 작용하는 토큰-매개변수 주의층으로 트랜스포머의 모든 선형 프로젝션을 대체합니다. 이 재정립을 통해 처음부터 다시 훈련할 필요 없이 점진적이고 효율적인 확장이 가능해집니다. 우리 모델은 새로운 키-값 매개변수 쌍을 점진적으로 추가하여 124M에서 1.4B 매개변수로 확장되며, 훈련 비용을 크게 줄이면서 처음부터 훈련된 트랜스포머와 유사한 성능을 달성합니다. 코드 및 모델은 https://github.com/Haiyang-W/TokenFormer에서 사용할 수 있습니다.
English
Transformers have become the predominant architecture in foundation models
due to their excellent performance across various domains. However, the
substantial cost of scaling these models remains a significant concern. This
problem arises primarily from their dependence on a fixed number of parameters
within linear projections. When architectural modifications (e.g., channel
dimensions) are introduced, the entire model typically requires retraining from
scratch. As model sizes continue growing, this strategy results in increasingly
high computational costs and becomes unsustainable. To overcome this problem,
we introduce TokenFormer, a natively scalable architecture that leverages the
attention mechanism not only for computations among input tokens but also for
interactions between tokens and model parameters, thereby enhancing
architectural flexibility. By treating model parameters as tokens, we replace
all the linear projections in Transformers with our token-parameter attention
layer, where input tokens act as queries and model parameters as keys and
values. This reformulation allows for progressive and efficient scaling without
necessitating retraining from scratch. Our model scales from 124M to 1.4B
parameters by incrementally adding new key-value parameter pairs, achieving
performance comparable to Transformers trained from scratch while greatly
reducing training costs. Code and models are available at
https://github.com/Haiyang-W/TokenFormer.Summary
AI-Generated Summary