ChatPaper.aiChatPaper

La Maldición de la Profundidad en Modelos de Lenguaje Grandes

The Curse of Depth in Large Language Models

February 9, 2025
Autores: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI

Resumen

En este documento, presentamos la Maldición de la Profundidad, un concepto que destaca, explica y aborda la reciente observación en los Modelos de Lenguaje Grande (LLMs) modernos donde casi la mitad de las capas son menos efectivas de lo esperado. Primero confirmamos la amplia existencia de este fenómeno en las familias más populares de LLMs como Llama, Mistral, DeepSeek y Qwen. Nuestro análisis, tanto teórico como empírico, identifica que la razón subyacente de la inefectividad de las capas profundas en los LLMs es el uso generalizado de la Normalización Pre-Capa (Pre-LN). Mientras que la Pre-LN estabiliza el entrenamiento de los LLMs basados en Transformadores, su varianza de salida crece exponencialmente con la profundidad del modelo, lo que causa indeseablemente que la derivada de los bloques profundos del Transformador sea una matriz identidad, y por lo tanto apenas contribuye al entrenamiento. Para resolver esta trampa de entrenamiento, proponemos Escalado de Normalización de Capa, que escala la varianza de la salida de la normalización de capa de forma inversa por la raíz cuadrada de su profundidad. Esta modificación simple mitiga la explosión de varianza de salida de las capas más profundas del Transformador, mejorando su contribución. Nuestros resultados experimentales, abarcando tamaños de modelo de 130M a 1B, demuestran que el Escalado de Normalización de Capa mejora significativamente el rendimiento de pre-entrenamiento de LLM en comparación con la Pre-LN. Además, esta mejora se traslada sin problemas al ajuste fino supervisado. Todos estos beneficios se pueden atribuir al hecho de que el Escalado de Normalización de Capa permite que las capas más profundas contribuyan de manera más efectiva durante el entrenamiento.
English
In this paper, we introduce the Curse of Depth, a concept that highlights, explains, and addresses the recent observation in modern Large Language Models(LLMs) where nearly half of the layers are less effective than expected. We first confirm the wide existence of this phenomenon across the most popular families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis, theoretically and empirically, identifies that the underlying reason for the ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer LLMs, its output variance exponentially grows with the model depth, which undesirably causes the derivative of the deep Transformer blocks to be an identity matrix, and therefore barely contributes to the training. To resolve this training pitfall, we propose LayerNorm Scaling, which scales the variance of output of the layer normalization inversely by the square root of its depth. This simple modification mitigates the output variance explosion of deeper Transformer layers, improving their contribution. Our experimental results, spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling significantly enhances LLM pre-training performance compared to Pre-LN. Moreover, this improvement seamlessly carries over to supervised fine-tuning. All these gains can be attributed to the fact that LayerNorm Scaling enables deeper layers to contribute more effectively during training.

Summary

AI-Generated Summary

PDF395February 11, 2025