ChatPaper.aiChatPaper

L^2M: Закон масштабирования взаимной информации для моделирования языка с длинным контекстом

L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

March 6, 2025
Авторы: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI

Аннотация

Мы строго устанавливаем закон масштабирования взаимной информации в естественном языке, который регулирует долгосрочные зависимости. Этот закон масштабирования, который, как мы показываем, отличается от и масштабируется независимо от традиционной двухточечной взаимной информации, является ключом к пониманию моделирования языка с длинным контекстом. Используя этот закон масштабирования, мы формулируем условие моделирования языка с длинным контекстом (L^2M), которое связывает способность модели эффективно обрабатывать длинный контекст с масштабированием размера её скрытого состояния для хранения прошлой информации. Наши результаты подтверждаются экспериментами как на трансформерах, так и на моделях пространства состояний. Эта работа закладывает теоретическую основу, которая направляет разработку крупных языковых моделей в сторону увеличения длины контекста.
English
We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L^2M) condition, which relates a model's capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.

Summary

AI-Generated Summary

PDF162March 7, 2025