ChatPaper.aiChatPaper

Cost-of-Pass: Un Marco Económico para la Evaluación de Modelos de Lenguaje

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
Autores: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

Resumen

La adopción generalizada de los sistemas de IA en la economía depende de su capacidad para generar valor económico que supere sus costos de inferencia. Evaluar esta compensación requiere métricas que tengan en cuenta tanto el rendimiento como los costos. Proponemos un marco basado en la teoría de la producción para evaluar modelos de lenguaje combinando precisión y costo de inferencia. Introducimos el "costo por acierto", el costo monetario esperado de generar una solución correcta. Luego definimos el "costo por acierto en la frontera" como el mínimo costo por acierto alcanzable entre los modelos disponibles o el de un "experto humano", utilizando el costo aproximado de contratar a un experto. Nuestro análisis revela insights económicos distintivos. Primero, los modelos ligeros son más rentables para tareas cuantitativas básicas, los modelos grandes para tareas intensivas en conocimiento, y los modelos de razonamiento para problemas cuantitativos complejos, a pesar de sus mayores costos por token. Segundo, el seguimiento de este costo por acierto en la frontera durante el último año muestra un progreso significativo, particularmente en tareas cuantitativas complejas, donde el costo se ha reducido aproximadamente a la mitad cada pocos meses. Tercero, para rastrear las innovaciones clave que impulsan este progreso, examinamos fronteras contrafactuales: estimaciones de la eficiencia en costos sin clases específicas de modelos. Encontramos que las innovaciones en modelos ligeros, grandes y de razonamiento han sido esenciales para impulsar la frontera en tareas cuantitativas básicas, intensivas en conocimiento y cuantitativas complejas, respectivamente. Finalmente, evaluamos las reducciones de costos proporcionadas por técnicas comunes en tiempo de inferencia, como la votación por mayoría y el auto-refinamiento, y encontramos que sus ganancias marginales en precisión rara vez justifican sus costos. Nuestros hallazgos subrayan que las innovaciones complementarias a nivel de modelo son los principales impulsores de la eficiencia en costos, y nuestro marco económico proporciona una herramienta fundamentada para medir este progreso y guiar su implementación.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF42April 21, 2025