El coste oculto de generar React
Una aseguradora mediana nos pidió estimar cuánto costaría reconstruir 740 pantallas internas usando un asistente de codificación de propósito general. Los números eran incómodos. Con aproximadamente 8.000 tokens de salida por pantalla para un componente React de forma libre, y una segunda pasada para pruebas, la factura superaba los $180.000 solo en inferencia. El mismo trabajo contra un schema de descriptor JSON costó menos de $22.000.
Esa proporción no es inusual. Es el resultado predeterminado cuando el modelo tiene que re-derivar la estructura en cada llamada.
Por qué paga realmente el modelo
Cuando GPT-4 o Claude escribe un componente React desde cero, la mayor parte de la salida es ceremonia. Imports. Andamiaje JSX. Boilerplate de hooks. Tipado de props. Error boundaries. El modelo lo sabe todo, y lo escribe correctamente, pero aun así paga el coste en tokens cada vez.
Examinamos una muestra de 200 generaciones de forma libre para pantallas CRUD y encontramos que menos del 15% de los tokens de salida codificaban algo que variaba entre pantallas. El otro 85% era estructura que el modelo reconstruía de memoria.
La salida estructurada cambia el presupuesto
Cuando el objetivo es un documento JSON validado contra un schema, el modelo deja de escribir andamiaje. Escribe decisiones. Nombres de campos, reglas de validación, regiones de layout, las columnas específicas de una grilla, el handler asociado a un botón. Todo lo demás lo proporciona el runtime.
Nuestra estimación interna, a través de aproximadamente 1.200 generaciones de descriptores ejecutadas durante el desarrollo, sitúa la reducción en 5-10x dependiendo de la complejidad de la pantalla. Los formularios de consulta simples se acercan a 10x. Los dashboards densos con lógica condicional se acercan a 5x.
Menos tokens, menos modos de fallo
La eficiencia en tokens es el beneficio fácil de medir. El más difícil es la confiabilidad. La generación de forma libre falla de maneras interesantes: un import faltante, una versión de librería alucinada, un hook llamado dentro de un condicional. Cada fallo requiere un reintento, que cuesta más tokens, lo que eleva el precio real por pantalla muy por encima del número de referencia.
La generación estructurada falla antes y más barato. Un validador de JSON Schema rechaza un descriptor malformado en milisegundos, antes de que se ejecute cualquier código. El modelo ve el error de validación y lo corrige en el siguiente turno. Vemos aproximadamente un reintento cada veinte generaciones, comparado con uno cada tres para ejecuciones equivalentes de forma libre.
Por qué esto importa para los constructores empresariales
La generación de aplicaciones empresariales no es una pantalla. Son cientos, luego miles, cada una tocando RBAC, logs de auditoría y contratos de datos que la organización ya acordó. Herramientas como Vercel v0, Bolt y Lovable optimizan para la primera pantalla. Generan resultados hermosos y facturas costosas.
La economía se invierte una vez que el descriptor y el runtime están en su lugar. Las nuevas pantallas cuestan centavos. Las variantes cuestan menos. Un product manager puede iterar sobre un layout veinte veces en una tarde sin que nadie note la partida de inferencia.
La conclusión
La eficiencia en tokens no es un truco ingenioso. Es lo que sucede cuando al modelo se le deja de pedir que escriba cosas que ya ha escrito un millón de veces. Dele al LLM un schema, un runtime y una superficie de decisiones clara, y la curva de costes se reduce en un orden de magnitud. Esa es la diferencia entre la IA como demostración y la IA como infraestructura de producción.