✨︎ Resumen (TL;DR):
- Ingenieros de OpenAI desarrollaron una optimización de software que disminuye en más de 50% el costo de inferencia de su modelo.
- La mejora se aplicó al tráfico de usuarios que usan ChatGPT sin cuenta, bajando el uso de GPUs a solo un par de cientos.
- Este avance reduce la presión financiera de la empresa sin requerir la compra inmediata de nuevos chips de Nvidia.
OpenAI logró reducir a más de la mitad el costo de ejecutar ChatGPT mediante una optimización de software que exprime mejor sus servidores actuales. La mejora, reportada inicialmente por The Information, ya se aplica al tráfico de usuarios que entran sin registrarse, lo que desplomó el uso de tarjetas de video Nvidia a solo un par de cientos de unidades.
Esta optimización ataca uno de los gastos más pesados para los laboratorios de inteligencia artificial: el costo de inferencia. Según fuentes internas de la compañía, los ingenieros de OpenAI lograron este avance a principios de junio sin necesidad de instalar hardware nuevo, sino maximizando el rendimiento de la infraestructura que ya tienen en marcha.
Por ahora, este ajuste beneficia únicamente a los usuarios invitados. Este grupo representa a las personas que usan la versión web o móvil sin crear una cuenta, quienes tienen acceso limitado a funciones básicas, muy por debajo de las capacidades que ofrecen los planes de suscripción de pago o la API de la empresa.

El reto de escalar la optimización
El reporte señala que todavía no hay certeza de si este ahorro de recursos se puede replicar en consultas complejas, en sus modelos de razonamiento avanzado o en el tráfico de pago. Llevar esta eficiencia a los clientes corporativos y de suscripción mensual es clave para que OpenAI logre mejorar sus márgenes de ganancia.
La noticia coincide con un anuncio de Nvidia, que demostró cómo el software de inferencia reduce drásticamente el costo por token. De acuerdo con el fabricante de chips, su plataforma Blackwell redujo cinco veces el costo de procesar tokens para el modelo DeepSeek V4 en un solo mes gracias a librerías de código abierto como TensorRT-LLM.
Hardware propio en el horizonte
Este esfuerzo de software corre en paralelo con la estrategia de hardware de la firma. El pasado 24 de junio, OpenAI reveló una alianza con Broadcom para desarrollar su propio silicio. Jalapeño es un procesador de OpenAI que ejecuta tareas de inferencia de inteligencia artificial con una alta eficiencia energética, y su despliegue está planeado para finales de 2026.
La combinación de chips diseñados a medida y refinamiento de software busca blindar la operación financiera de la compañía. Al reducir la dependencia inmediata de comprar miles de nuevas GPUs Nvidia, OpenAI gana margen para bajar precios en sus servicios comerciales o absorber más demanda de su base global de usuarios.
