NVIDIA Blackwell Ultra: 50x Más Rendimiento y 35x Menor Costo para IA Agentic

Por Agencias

La plataforma NVIDIA Blackwell ha sido adoptada por importantes proveedores de inferencia, como Baseten, DeepInfra, Fireworks AI y Together AI, que buscan reducir el costo por token en hasta un 10x. Con la llegada de la nueva plataforma NVIDIA Blackwell Ultra, se espera que esta tendencia continúe para el ámbito de la inteligencia artificial agentic.

El crecimiento explosivo en las consultas relacionadas con software y programación impulsadas por agentes de IA y asistentes de codificación ha sido notable: del 11% al 50% en el último año, según el informe State of Inference de OpenRouter. Estas aplicaciones requieren baja latencia para mantener una respuesta en tiempo real a lo largo de flujos de trabajo complejos y un contexto amplio al razonar sobre bases de código enteras.

Nueva Era en Desempeño y Costos

Los datos recientes de rendimiento de SemiAnalysis InferenceX muestran que la combinación de optimizaciones de software de NVIDIA y la próxima generación de la plataforma Blackwell Ultra ha logrado avances significativos. Los sistemas NVIDIA GB300 NVL72 ahora ofrecen hasta 50 veces mayor rendimiento por megavatio, lo que se traduce en un costo por token hasta 35 veces menor en comparación con la plataforma NVIDIA Hopper.

Este enfoque innovador abarca chips, arquitectura del sistema y software, permitiendo a NVIDIA acelerar el rendimiento en cargas de trabajo de IA — desde codificación agentic hasta asistentes interactivos — mientras reduce costos a gran escala.

Rendimiento Excepcional para Cargas de Trabajo Críticas

Un análisis reciente realizado por Signal65 revela que la arquitectura GB200 NVL72 ofrece más de 10 veces más tokens por vatio, reduciendo así el costo por token a una décima parte en comparación con la plataforma Hopper. Estos impresionantes aumentos en el rendimiento siguen creciendo a medida que mejora la infraestructura subyacente.

Kernels GPU optimizados para eficiencia y baja latencia maximizan las capacidades computacionales del Blackwell.
NVIDIA NVLink Symmetric Memory permite acceso directo a memoria entre GPUs, mejorando la comunicación.
Lanzamiento dependiente programático minimiza tiempos inactivos al iniciar la fase de configuración del siguiente kernel antes de completar el anterior.

Aprovechando estas mejoras en software, el GB300 NVL72 — equipado con GPU Blackwell Ultra — incrementa significativamente el rendimiento por megavatio hasta alcanzar 50 veces más que su predecesor Hopper.

Eficiencia Económica para Escenarios Complejos

Tanto el GB200 como el GB300 NVL72 ofrecen latencias ultrabajas, pero los beneficios del GB300 son más evidentes en escenarios que requieren un contexto extenso. Para tareas con entradas de 128,000 tokens y salidas de 8,000 tokens — como los asistentes AI que analizan bases de código — el GB300 NVL72 presenta un costo por token hasta 1.5 veces menor comparado con su versión anterior.

A medida que los agentes leen más código, su comprensión mejora; sin embargo, esto también demanda mayor capacidad computacional. La arquitectura Blackwell Ultra proporciona un rendimiento computacional NVFP4 1.5 veces superior y un procesamiento de atención dos veces más rápido, facilitando así una comprensión integral del código.

Infraestructura Sólida para IA Agentic

Proveedores líderes en la nube e innovadores en IA ya han implementado a gran escala los sistemas NVIDIA GB200 NVL72 y están comenzando a utilizar también los GB300 NVL72. Empresas como Microsoft, CoreWeave y OCI están desplegando estos sistemas para casos de uso que requieren baja latencia y contextos amplios como la codificación agentic.

“A medida que la inferencia se convierte en el núcleo de la producción AI, el rendimiento a largo plazo y la eficiencia del token son críticos”, afirmó Chen Goldberg, vicepresidente senior de ingeniería en CoreWeave. “El Grace Blackwell NVL72 aborda este desafío directamente”. La infraestructura AI Cloud diseñada por CoreWeave busca traducir las ventajas del sistema GB300 hacia un rendimiento predecible y eficiencia económica.

NVIDIA Vera Rubin: El Futuro del Rendimiento AI

A medida que los sistemas NVIDIA Blackwell se despliegan ampliamente, las continuas optimizaciones del software seguirán desbloqueando mejoras adicionales tanto en rendimiento como en costos.

De cara al futuro, se anticipa que la plataforma NVIDIA Rubin, que integra seis nuevos chips para formar una supercomputadora AI, ofrecerá otro salto significativo en desempeño. Para inferencias MoE (mezcla de expertos), se prevé un aumento hasta diez veces mayor en rendimiento por megavatio comparado con Blackwell, lo que implica una reducción drástica del costo por millón de tokens.

Para conocer más sobre la plataforma NVIDIA Rubin y el sistema Vera Rubin NVL72.

¿Te ha parecido interesante esta noticia?

Si (0)

No(0)

0 comentarios

siguiente noticia noticia anterior