Microsoft Maia 200 redefine la inferencia de IA en Azure

El nuevo acelerador Maia 200 triplica el rendimiento de AWS Trainium 3 y supera a Google TPU v7 con tecnología de 3nm y 10 petaFLOPS en precisión FP4.

Microsoft acaba de lanzar Maia 200, su acelerador de inferencia de IA de próxima generación que promete redefinir la economía de los tokens generados por inteligencia artificial. Scott Guthrie, vicepresidente ejecutivo de Cloud + IA en Microsoft, anunció este chip revolucionario que posiciona a Azure en el podio de líderes en eficiencia y rendimiento para la ejecución de modelos de IA.

Rendimiento sin precedentes en la industria

Fabricado con el proceso de 3 nanómetros de TSMC, Maia 200 integra más de 140 mil millones de transistores y entrega más de 10 petaFLOPS en precisión de 4 bits (FP4) y más de 5 petaFLOPS en precisión de 8 bits (FP8), todo dentro de un envolvente térmico de 750W. Las cifras son contundentes: triplica el rendimiento FP4 del Amazon Trainium de tercera generación y supera el rendimiento FP8 del TPU de séptima generación de Google.

El chip cuenta con núcleos tensoriales nativos FP8/FP4, un sistema de memoria con 216GB HBM3e a 7 TB/s y 272MB de SRAM integrada. Esta arquitectura de memoria rediseñada, centrada en tipos de datos de precisión estrecha y motores DMA especializados, elimina los cuellos de botella tradicionales en la alimentación de datos, aumentando significativamente el rendimiento de generación de tokens.

Según Guthrie, Maia 200 ofrece un 30% más de rendimiento por dólar comparado con el hardware de última generación de la flota actual de Microsoft, convirtiéndose en el sistema de inferencia más eficiente jamás desplegado por la compañía.

Diseñado para los modelos más exigentes

El acelerador está optimizado para ejecutar los últimos modelos GPT-5.2 de OpenAI y servirá como infraestructura para Microsoft Foundry y Microsoft 365 Copilot. El equipo de Microsoft Superintelligence utilizará Maia 200 específicamente para la generación de datos sintéticos y el aprendizaje por refuerzo, acelerando la velocidad de generación y filtrado de datos de alta calidad específicos de dominio.

Esta capacidad resulta crucial para los pipelines de datos sintéticos, donde el diseño único de Maia 200 permite alimentar la formación de modelos con señales más frescas y específicas, mejorando continuamente las capacidades de los sistemas de IA de próxima generación.

Arquitectura de red innovadora

A nivel de sistemas, Maia 200 introduce un diseño de red de dos niveles construido sobre Ethernet estándar, eliminando la dependencia de tejidos propietarios. Cada acelerador expone 2.8 TB/s de ancho de banda bidireccional dedicado y permite operaciones colectivas predecibles en clústeres de hasta 6,144 aceleradores.

Dentro de cada bandeja, cuatro aceleradores Maia están completamente interconectados con enlaces directos no conmutados, manteniendo comunicación de alto ancho de banda local para optimizar la eficiencia de inferencia. Esta arquitectura unificada simplifica la programación, mejora la flexibilidad de carga de trabajo y reduce la capacidad bloqueada, manteniendo consistencia en rendimiento y eficiencia de costes a escala de nube.

LEE TAMBIÉN: El negocio de los semiconductores ya es el negocio de la IA

Desarrollo nativo en la nube

Microsoft validó la mayor parte del sistema de extremo a extremo antes de la disponibilidad final del silicio mediante un sofisticado entorno pre-silicio que modeló patrones de cálculo y comunicación de LLMs con alta fidelidad. Este enfoque de co-desarrollo permitió optimizar silicio, redes y software como un todo unificado mucho antes del primer chip.

El resultado: los modelos de IA funcionaban con silicio Maia 200 días después de la llegada de la primera pieza empaquetada, y el tiempo desde el primer silicio hasta el despliegue en centros de datos se redujo a menos de la mitad comparado con programas similares.

Disponibilidad y acceso

Maia 200 está desplegado en la región de centros de datos US Central cerca de Des Moines, Iowa, con US West 3 cerca de Phoenix, Arizona, próximamente, y futuras regiones en desarrollo. Microsoft invita a desarrolladores, startups de IA y académicos a explorar el SDK de Maia 200, que incluye compilador Triton, soporte para PyTorch, programación de bajo nivel en NPL, simulador Maia y calculadora de costes.

La era de la IA a gran escala define su infraestructura, y Microsoft apuesta por un programa multigeneracional donde cada iteración establece nuevos estándares de rendimiento y eficiencia.

Microsoft Maia 200: El chip que redefine la inferencia de IA en Azure