TokenFormer: Überdenken der Transformer-Skalierung mit tokenisiertem Modell Parameter
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
October 30, 2024
Autoren: Haiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele
cs.AI
Zusammenfassung
Transformer sind aufgrund ihrer hervorragenden Leistung in verschiedenen Bereichen zur vorherrschenden Architektur in Grundlagenmodellen geworden. Allerdings bleibt die erhebliche Kostensteigerung dieser Modelle ein bedeutendes Anliegen. Dieses Problem entsteht hauptsächlich durch ihre Abhängigkeit von einer festen Anzahl von Parametern innerhalb linearer Projektionen. Wenn architektonische Modifikationen (z.B. Kanaldimensionen) eingeführt werden, erfordert das gesamte Modell in der Regel ein Neutraining von Grund auf. Mit zunehmender Modellgröße führt diese Strategie zu immer höheren Rechenkosten und wird untragbar. Um dieses Problem zu überwinden, stellen wir TokenFormer vor, eine nativ skalierbare Architektur, die den Aufmerksamkeitsmechanismus nicht nur für Berechnungen zwischen Eingabetokens nutzt, sondern auch für Interaktionen zwischen Tokens und Modellparametern, wodurch die architektonische Flexibilität verbessert wird. Indem wir Modellparameter als Tokens behandeln, ersetzen wir alle linearen Projektionen in Transformern durch unsere Token-Parameter-Aufmerksamkeitsschicht, in der Eingabetokens als Abfragen und Modellparameter als Schlüssel und Werte fungieren. Diese Umformulierung ermöglicht eine fortschreitende und effiziente Skalierung, ohne ein Neutraining von Grund auf zu erfordern. Unser Modell skaliert von 124M auf 1.4B Parameter, indem schrittweise neue Schlüssel-Wert-Parameterpaare hinzugefügt werden, und erzielt eine Leistung, die mit von Grund auf trainierten Transformern vergleichbar ist, während die Trainingskosten erheblich reduziert werden. Code und Modelle sind verfügbar unter https://github.com/Haiyang-W/TokenFormer.
English
Transformers have become the predominant architecture in foundation models
due to their excellent performance across various domains. However, the
substantial cost of scaling these models remains a significant concern. This
problem arises primarily from their dependence on a fixed number of parameters
within linear projections. When architectural modifications (e.g., channel
dimensions) are introduced, the entire model typically requires retraining from
scratch. As model sizes continue growing, this strategy results in increasingly
high computational costs and becomes unsustainable. To overcome this problem,
we introduce TokenFormer, a natively scalable architecture that leverages the
attention mechanism not only for computations among input tokens but also for
interactions between tokens and model parameters, thereby enhancing
architectural flexibility. By treating model parameters as tokens, we replace
all the linear projections in Transformers with our token-parameter attention
layer, where input tokens act as queries and model parameters as keys and
values. This reformulation allows for progressive and efficient scaling without
necessitating retraining from scratch. Our model scales from 124M to 1.4B
parameters by incrementally adding new key-value parameter pairs, achieving
performance comparable to Transformers trained from scratch while greatly
reducing training costs. Code and models are available at
https://github.com/Haiyang-W/TokenFormer.Summary
AI-Generated Summary