
3.4x más rápido en Llama 3.1 y 30x más rendimiento total. Así se lanza una nueva era en IA.
Fecha de publicación: 2 de abril de 2025
Compañía: NVIDIA
Blackwell no vino a competir… vino a dominar
NVIDIA acaba de soltar una bomba de datos que sacudió el mundo de la inteligencia artificial: su nueva arquitectura Blackwell arrasó en los benchmarks de MLPerf Inference v5.0, estableciendo nuevos estándares de rendimiento y eficiencia en inferencia de modelos de lenguaje gigantescos como Llama 3.1 405B y Mixtral 8x7B.
Mientras muchos aún están digiriendo lo que significa la IA generativa para el futuro, NVIDIA ya está entregando las herramientas para correrla a toda velocidad.
¿Qué es MLPerf Inference v5.0 y por qué importa?
Es el benchmark que pone a prueba a los pesos pesados del cómputo en IA. Desde su debut en 2019, MLPerf Inference evalúa el rendimiento en tareas reales, como clasificación de imágenes, detección de objetos, modelos de lenguaje y redes neuronales gráficas (GNNs).

Este año llegaron nuevas bestias al ring:
- Llama 3.1 405B: modelo denso de 405 mil millones de parámetros.
- Llama 2 70B Interactive: versión interactiva de alta exigencia.
- R-GAT: benchmark de redes neuronales gráficas (GNNs).
Blackwell: la nueva bestia de NVIDIA
En esta edición, NVIDIA arrasó con todo al presentar resultados con dos sistemas:
- GB200 NVL72: rack completo con 36 CPUs Grace y 72 GPUs Blackwell, todos unidos con NVLink.
- DGX B200: nodo con 8 GPUs Blackwell y conexiones NVLink de alto ancho de banda.

Ambos sistemas hicieron pedazos los récords anteriores, usando la nueva generación del Transformer Engine, soporte para FP4/FP6, TensorRT-LLM y Model Optimizer para cuantización FP4.
En Llama 3.1 405B, GB200 NVL72 logró hasta 3.4x más rendimiento por GPU comparado con el sistema H200 anterior, y hasta 30x más rendimiento total gracias al aumento masivo de GPUs conectadas en una sola malla NVLink.
Rendimiento por benchmark (¡aguas con estos números!)
Benchmark | B200 (8 GPUs) | H200 (8 GPUs) | Aceleración con Blackwell |
---|---|---|---|
Llama 2 70B | 98,443 tokens/s | 33,072 tokens/s | 3x |
Mixtral 8x7B | 128,148 tokens/s | 62,630 tokens/s | 2.1x |
Stable Diffusion XL | 30.38 queries/s | 18.99 queries/s | 1.6x |
Además, en la prueba interactiva de Llama 2 70B, el sistema B200 duplicó y más el rendimiento de Hopper (3.1x), demostrando su capacidad en escenarios en tiempo real.
¿Y qué pasa con Hopper?
No es que Hopper se haya quedado atrás. Aunque fue lanzado en 2022, sigue dando batalla con optimización de software continua, alcanzando 1.5x más rendimiento en el último año gracias a mejoras como:
- Fusión avanzada de kernels
- GEMM y atención optimizada
- Paralelismo mejorado en TensorRT-LLM
Eso le permitió mantenerse competitivo incluso frente a benchmarks nuevos como Llama 3.1 y Mixtral. De hecho, fue la única plataforma en reportar resultados en el benchmark de Mixtral 8x7B con MoE (mixture of experts).
Blackwell + Hopper = AI para todo
Con este nuevo estándar de velocidad, eficiencia y escalabilidad, NVIDIA posiciona a Blackwell como el motor ideal para la próxima generación de fábricas de IA. Hopper, por su parte, se mantiene como una opción sólida para infraestructura ya desplegada, con mejoras continuas que maximizan la inversión.
¿El objetivo? Reducir el costo por token, aumentar el rendimiento por watt y llevar la IA razonadora a escala masiva. Y sí, NVIDIA ya está trabajando en eso con Dynamo, su nueva capa para reasoning sobre GPUs Hopper y Blackwell.