ChatPaper.aiChatPaper

Раскрытие масштабирования производительности LLM в последующих задачах: кластерный подход

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Авторы: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Аннотация

Быстрое развитие вычислительных технологий значительно увеличивает масштаб и стоимость обучения крупных языковых моделей (LLM). Точное прогнозирование производительности на целевых задачах до начала обучения модели имеет решающее значение для эффективного распределения ресурсов, однако остается сложной задачей из-за двух основных ограничений: (1) "феномен возникновения", при котором метрики производительности на целевых задачах становятся значимыми только после длительного обучения, что ограничивает возможность использования меньших моделей для прогнозирования; (2) неравномерное распределение сложности задач и отсутствие универсальных законов масштабирования, что приводит к значительной вариативности метрик. Существующие методы прогнозирования производительности страдают от ограниченной точности и надежности, что затрудняет оценку потенциальных возможностей LLM. Для решения этих проблем мы предлагаем фреймворк прогнозирования производительности на целевых задачах, основанный на кластеризации по сложности (Clustering-On-Difficulty, COD). COD сначала создает предсказуемое подмножество задач, кластеризуя их на основе характеристик сложности, стратегически исключая кластеры, не демонстрирующие феномена возникновения и не подчиняющиеся законам масштабирования. Оценки на выбранном подмножестве служат эффективными промежуточными предикторами производительности на полном наборе задач. С теоретическим обоснованием мы выводим функцию отображения, которая преобразует метрики производительности с предсказуемого подмножества на полный набор задач, обеспечивая точную экстраполяцию производительности LLM на целевых задачах. Предложенный метод был применен для прогнозирования масштабирования производительности для LLM с 70 миллиардами параметров, предоставляя практические рекомендации для распределения ресурсов обучения и мониторинга процесса обучения. Важно отметить, что COD демонстрирует выдающуюся точность прогнозирования для 70B LLM, используя ансамбль небольших моделей, с абсолютным средним отклонением 1,36% на восьми важных бенчмарках для оценки LLM.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF182February 26, 2025