Monet: Miscela di Esperti Monosemanti per i Transformers
Monet: Mixture of Monosemantic Experts for Transformers
December 5, 2024
Autori: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI
Abstract
Comprendere i calcoli interni dei grandi modelli linguistici (LLM) è cruciale per allinearli ai valori umani e prevenire comportamenti indesiderati come la generazione di contenuti tossici. Tuttavia, l'interpretabilità meccanicistica è ostacolata dalla polisemanticità - dove singoli neuroni rispondono a concetti multipli e non correlati. Mentre gli Autoencoder Sparsi (SAE) hanno cercato di separare queste caratteristiche attraverso l'apprendimento di dizionari sparsi, hanno compromesso le prestazioni dei LLM a causa della dipendenza dalla perdita di ricostruzione post-hoc. Per affrontare questo problema, presentiamo l'architettura Mixture of Monosemantic Experts for Transformers (Monet), che incorpora direttamente l'apprendimento di dizionari sparsi nella preformazione end-to-end Mixture-of-Experts. Il nostro nuovo metodo di decomposizione degli esperti consente di scalare il numero di esperti a 262.144 per layer, mentre i parametri totali scalano proporzionalmente alla radice quadrata del numero di esperti. Le nostre analisi dimostrano l'esclusività reciproca della conoscenza tra gli esperti e mostrano la conoscenza parametrica racchiusa all'interno di singoli esperti. Inoltre, Monet consente la manipolazione della conoscenza su domini, lingue e mitigazione della tossicità senza degradare le prestazioni generali. La nostra ricerca di LLM trasparenti evidenzia il potenziale dello scalare il numero di esperti per migliorare l'interpretabilità meccanicistica e ridurre direttamente la conoscenza interna per regolare fondamentalmente il comportamento del modello. Il codice sorgente e i checkpoint preaddestrati sono disponibili su https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is
crucial for aligning them with human values and preventing undesirable
behaviors like toxic content generation. However, mechanistic interpretability
is hindered by polysemanticity -- where individual neurons respond to multiple,
unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to
disentangle these features through sparse dictionary learning, they have
compromised LLM performance due to reliance on post-hoc reconstruction loss. To
address this issue, we introduce Mixture of Monosemantic Experts for
Transformers (Monet) architecture, which incorporates sparse dictionary
learning directly into end-to-end Mixture-of-Experts pretraining. Our novel
expert decomposition method enables scaling the expert count to 262,144 per
layer while total parameters scale proportionally to the square root of the
number of experts. Our analyses demonstrate mutual exclusivity of knowledge
across experts and showcase the parametric knowledge encapsulated within
individual experts. Moreover, Monet allows knowledge manipulation over domains,
languages, and toxicity mitigation without degrading general performance. Our
pursuit of transparent LLMs highlights the potential of scaling expert counts
to enhance} mechanistic interpretability and directly resect the internal
knowledge to fundamentally adjust} model behavior. The source code and
pretrained checkpoints are available at https://github.com/dmis-lab/Monet.Summary
AI-Generated Summary