Раскрытие масштабирования производительности LLM в последующих задачах: кластерный подход
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Авторы: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Аннотация
Быстрое развитие вычислительных технологий значительно увеличивает масштаб и стоимость обучения крупных языковых моделей (LLM). Точное прогнозирование производительности на целевых задачах до начала обучения модели имеет решающее значение для эффективного распределения ресурсов, однако остается сложной задачей из-за двух основных ограничений: (1) "феномен возникновения", при котором метрики производительности на целевых задачах становятся значимыми только после длительного обучения, что ограничивает возможность использования меньших моделей для прогнозирования; (2) неравномерное распределение сложности задач и отсутствие универсальных законов масштабирования, что приводит к значительной вариативности метрик. Существующие методы прогнозирования производительности страдают от ограниченной точности и надежности, что затрудняет оценку потенциальных возможностей LLM. Для решения этих проблем мы предлагаем фреймворк прогнозирования производительности на целевых задачах, основанный на кластеризации по сложности (Clustering-On-Difficulty, COD). COD сначала создает предсказуемое подмножество задач, кластеризуя их на основе характеристик сложности, стратегически исключая кластеры, не демонстрирующие феномена возникновения и не подчиняющиеся законам масштабирования. Оценки на выбранном подмножестве служат эффективными промежуточными предикторами производительности на полном наборе задач. С теоретическим обоснованием мы выводим функцию отображения, которая преобразует метрики производительности с предсказуемого подмножества на полный набор задач, обеспечивая точную экстраполяцию производительности LLM на целевых задачах. Предложенный метод был применен для прогнозирования масштабирования производительности для LLM с 70 миллиардами параметров, предоставляя практические рекомендации для распределения ресурсов обучения и мониторинга процесса обучения. Важно отметить, что COD демонстрирует выдающуюся точность прогнозирования для 70B LLM, используя ансамбль небольших моделей, с абсолютным средним отклонением 1,36% на восьми важных бенчмарках для оценки LLM.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary