Cost-of-Pass: Экономическая структура для оценки языковых моделей
Cost-of-Pass: An Economic Framework for Evaluating Language Models
April 17, 2025
Авторы: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI
Аннотация
Широкое внедрение систем искусственного интеллекта в экономику зависит от их способности создавать экономическую ценность, превышающую затраты на их использование. Для оценки этого компромисса необходимы метрики, учитывающие как производительность, так и затраты. Мы предлагаем основанную на теории производства структуру для оценки языковых моделей, объединяющую точность и стоимость использования. Мы вводим понятие "стоимости прохода" — ожидаемых денежных затрат на генерацию правильного решения. Затем мы определяем "граничную стоимость прохода" как минимальную стоимость прохода, достижимую среди доступных моделей или с использованием эксперта, используя приблизительную стоимость найма специалиста.
Наш анализ выявляет важные экономические инсайты. Во-первых, легковесные модели наиболее экономически эффективны для базовых количественных задач, крупные модели — для задач, требующих глубоких знаний, а модели для рассуждений — для сложных количественных задач, несмотря на более высокие затраты на токен. Во-вторых, отслеживание этой граничной стоимости прохода за последний год показывает значительный прогресс, особенно для сложных количественных задач, где стоимость сокращалась примерно вдвое каждые несколько месяцев. В-третьих, чтобы выявить ключевые инновации, способствующие этому прогрессу, мы исследуем контрфактуальные границы: оценки экономической эффективности без использования определенных классов моделей. Мы обнаруживаем, что инновации в легковесных, крупных и моделях для рассуждений были необходимы для продвижения границы в базовых количественных, требующих знаний и сложных количественных задачах соответственно. Наконец, мы оцениваем снижение затрат, обеспечиваемое распространенными методами на этапе использования, такими как мажоритарное голосование и самоусовершенствование, и обнаруживаем, что их дополнительные улучшения точности редко оправдывают затраты.
Наши результаты подчеркивают, что взаимодополняющие инновации на уровне моделей являются основными драйверами экономической эффективности, а наша экономическая структура предоставляет принципиальный инструмент для измерения этого прогресса и руководства внедрением.
English
The widespread adoption of AI systems in the economy hinges on their ability
to generate economic value that outweighs their inference costs. Evaluating
this tradeoff requires metrics that account for both performance and costs. We
propose a framework grounded in production theory for evaluating language
models by combining accuracy and inference cost. We introduce "cost-of-pass",
the expected monetary cost of generating a correct solution. We then define the
"frontier cost-of-pass" as the minimum cost-of-pass achievable across available
models or the "human-expert, using the approximate cost of hiring an expert.
Our analysis reveals distinct economic insights. First, lightweight models are
most cost-effective for basic quantitative tasks, large models for
knowledge-intensive ones, and reasoning models for complex quantitative
problems, despite higher per-token costs. Second, tracking this frontier
cost-of-pass over the past year reveals significant progress, particularly for
complex quantitative tasks where the cost has roughly halved every few months.
Third, to trace key innovations driving this progress, we examine
counterfactual frontiers: estimates of cost-efficiency without specific model
classes. We find that innovations in lightweight, large, and reasoning models
have been essential for pushing the frontier in basic quantitative,
knowledge-intensive, and complex quantitative tasks, respectively. Finally, we
assess the cost-reductions afforded by common inference-time techniques like
majority voting and self-refinement, finding that their marginal accuracy gains
rarely justify their costs. Our findings underscore that complementary
model-level innovations are the primary drivers of cost-efficiency, and our
economic framework provides a principled tool for measuring this progress and
guiding deployment.Summary
AI-Generated Summary