ChatPaper.aiChatPaper

Cost-of-Pass: Экономическая структура для оценки языковых моделей

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
Авторы: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

Аннотация

Широкое внедрение систем искусственного интеллекта в экономику зависит от их способности создавать экономическую ценность, превышающую затраты на их использование. Для оценки этого компромисса необходимы метрики, учитывающие как производительность, так и затраты. Мы предлагаем основанную на теории производства структуру для оценки языковых моделей, объединяющую точность и стоимость использования. Мы вводим понятие "стоимости прохода" — ожидаемых денежных затрат на генерацию правильного решения. Затем мы определяем "граничную стоимость прохода" как минимальную стоимость прохода, достижимую среди доступных моделей или с использованием эксперта, используя приблизительную стоимость найма специалиста. Наш анализ выявляет важные экономические инсайты. Во-первых, легковесные модели наиболее экономически эффективны для базовых количественных задач, крупные модели — для задач, требующих глубоких знаний, а модели для рассуждений — для сложных количественных задач, несмотря на более высокие затраты на токен. Во-вторых, отслеживание этой граничной стоимости прохода за последний год показывает значительный прогресс, особенно для сложных количественных задач, где стоимость сокращалась примерно вдвое каждые несколько месяцев. В-третьих, чтобы выявить ключевые инновации, способствующие этому прогрессу, мы исследуем контрфактуальные границы: оценки экономической эффективности без использования определенных классов моделей. Мы обнаруживаем, что инновации в легковесных, крупных и моделях для рассуждений были необходимы для продвижения границы в базовых количественных, требующих знаний и сложных количественных задачах соответственно. Наконец, мы оцениваем снижение затрат, обеспечиваемое распространенными методами на этапе использования, такими как мажоритарное голосование и самоусовершенствование, и обнаруживаем, что их дополнительные улучшения точности редко оправдывают затраты. Наши результаты подчеркивают, что взаимодополняющие инновации на уровне моделей являются основными драйверами экономической эффективности, а наша экономическая структура предоставляет принципиальный инструмент для измерения этого прогресса и руководства внедрением.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF42April 21, 2025