Cost-of-Pass: Un Marco Económico para la Evaluación de Modelos de Lenguaje
Cost-of-Pass: An Economic Framework for Evaluating Language Models
April 17, 2025
Autores: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI
Resumen
La adopción generalizada de los sistemas de IA en la economía depende de su capacidad para generar valor económico que supere sus costos de inferencia. Evaluar esta compensación requiere métricas que tengan en cuenta tanto el rendimiento como los costos. Proponemos un marco basado en la teoría de la producción para evaluar modelos de lenguaje combinando precisión y costo de inferencia. Introducimos el "costo por acierto", el costo monetario esperado de generar una solución correcta. Luego definimos el "costo por acierto en la frontera" como el mínimo costo por acierto alcanzable entre los modelos disponibles o el de un "experto humano", utilizando el costo aproximado de contratar a un experto. Nuestro análisis revela insights económicos distintivos. Primero, los modelos ligeros son más rentables para tareas cuantitativas básicas, los modelos grandes para tareas intensivas en conocimiento, y los modelos de razonamiento para problemas cuantitativos complejos, a pesar de sus mayores costos por token. Segundo, el seguimiento de este costo por acierto en la frontera durante el último año muestra un progreso significativo, particularmente en tareas cuantitativas complejas, donde el costo se ha reducido aproximadamente a la mitad cada pocos meses. Tercero, para rastrear las innovaciones clave que impulsan este progreso, examinamos fronteras contrafactuales: estimaciones de la eficiencia en costos sin clases específicas de modelos. Encontramos que las innovaciones en modelos ligeros, grandes y de razonamiento han sido esenciales para impulsar la frontera en tareas cuantitativas básicas, intensivas en conocimiento y cuantitativas complejas, respectivamente. Finalmente, evaluamos las reducciones de costos proporcionadas por técnicas comunes en tiempo de inferencia, como la votación por mayoría y el auto-refinamiento, y encontramos que sus ganancias marginales en precisión rara vez justifican sus costos. Nuestros hallazgos subrayan que las innovaciones complementarias a nivel de modelo son los principales impulsores de la eficiencia en costos, y nuestro marco económico proporciona una herramienta fundamentada para medir este progreso y guiar su implementación.
English
The widespread adoption of AI systems in the economy hinges on their ability
to generate economic value that outweighs their inference costs. Evaluating
this tradeoff requires metrics that account for both performance and costs. We
propose a framework grounded in production theory for evaluating language
models by combining accuracy and inference cost. We introduce "cost-of-pass",
the expected monetary cost of generating a correct solution. We then define the
"frontier cost-of-pass" as the minimum cost-of-pass achievable across available
models or the "human-expert, using the approximate cost of hiring an expert.
Our analysis reveals distinct economic insights. First, lightweight models are
most cost-effective for basic quantitative tasks, large models for
knowledge-intensive ones, and reasoning models for complex quantitative
problems, despite higher per-token costs. Second, tracking this frontier
cost-of-pass over the past year reveals significant progress, particularly for
complex quantitative tasks where the cost has roughly halved every few months.
Third, to trace key innovations driving this progress, we examine
counterfactual frontiers: estimates of cost-efficiency without specific model
classes. We find that innovations in lightweight, large, and reasoning models
have been essential for pushing the frontier in basic quantitative,
knowledge-intensive, and complex quantitative tasks, respectively. Finally, we
assess the cost-reductions afforded by common inference-time techniques like
majority voting and self-refinement, finding that their marginal accuracy gains
rarely justify their costs. Our findings underscore that complementary
model-level innovations are the primary drivers of cost-efficiency, and our
economic framework provides a principled tool for measuring this progress and
guiding deployment.Summary
AI-Generated Summary