Las instancias GPU de nueva generación, optimizadas para el aprendizaje automático y cómputo de alto rendimiento, son las más poderosas en la nube.
Amazon Web Services (AWS) lanzó una nueva generación de Amazon Elastic Compute Cloud (Amazon EC2), las instancias GPU tipo P3 diseñadas para aplicaciones de cómputo-intensivo las cuales requieren un rendimiento de punto flotante paralelo masivo, aplicable al aprendizaje automático, dinámica de fluidos computacionales, finanzas computacionales, análisis sísmico, modelado molecular, genómica y sistemas de vehículos autónomos.
Las instancias GPU P3 permiten a los clientes crear e implementar aplicaciones avanzadas con un rendimiento hasta 14 veces mejor que las instancias de cómputo de la GPU de Amazon EC2 de la generación anterior y reducir el entrenamiento de aprendizaje automático de días a horas. Las primeras instancias GPU se incluirán en el NVIDIA Tesla V100, las instancias P3 son las instancias GPU más poderosas disponibles en la nube.
Con hasta ocho GPUs en el NVIDIA Tesla V100, las instancias P3 proporcionan hasta un petaflop de precisión mixta, 125 teraflops de precisión simple y 62 teraflops de rendimiento de punto flotante de doble precisión, así como una interconexión NVIDIA NVLink de segunda generación de 300 GB / s que permite la comunicación GPU a GPU de alta velocidad y baja latencia.
Las instancias P3 también cuentan con hasta 64 vCPU basadas en procesadores Intel Xeon E5 (Broadwell) personalizados, 488 GB de DRAM y 25 Gbps de ancho de banda de red agregado dedicado utilizando el adaptador de red elástico (ENA).
Instancias con un rendimiento 14 veces mayor
“Cuando lanzamos nuestras instancias de P2 el año pasado, no podíamos creer cuán rápido las personas las adoptaron”, dijo Matt Garman, Vicepresidente de Amazon EC2. “La mayor parte del aprendizaje automático en la nube hoy en día se realiza en instancias P2, sin embargo, los clientes continúan ansiosos por instancias más potentes. Al ofrecer hasta 14 veces mejor rendimiento que las instancias P2, las instancias P3 reducirán significativamente el tiempo involucrado en el entrenamiento de modelos de aprendizaje automático, proporcionar agilidad para que los desarrolladores experimenten y optimizar el aprendizaje automático sin requerir grandes inversiones en clústeres de GPU locales. Además, las aplicaciones informáticas de alto rendimiento se beneficiarán de hasta 2.7 veces la mejora en el rendimiento de punto flotante de precisión doble”.
El mercado comunitario de Airbnb brinda acceso a millones de alojamientos únicos y experiencias locales en más de 65,000 ciudades y 191 países. “En Airbnb, estamos utilizando el aprendizaje automático para optimizar las recomendaciones de búsqueda y mejorar la orientación dinámica de precios para los hosts, lo que se traduce en mayores conversiones de reserva. Estos casos de uso son muy específicos para nuestra industria y requieren modelos de aprendizaje automático que usan varios tipos de fuentes de datos diferentes, como las preferencias de los huéspedes, la ubicación, la temporada y el precio”, dijo Nick Handel de Airbnb. “Con las instancias de Amazon EC2 P3, tenemos la capacidad de ejecutar cargas de trabajo de capacitación más rápido, lo que nos permite iterar más, crear mejores modelos de aprendizaje automático y reducir los costos”.
La misión de Schrödinger es mejorar la salud humana y la calidad de vida mediante el desarrollo de métodos computacionales avanzados que transforman la forma en que los científicos diseñan terapias y materiales. “Nuestra industria tiene una necesidad apremiante de modelos de rendimiento, precisos y predictivos para ampliar la escala de descubrimiento y optimización, complementando y yendo más allá del enfoque experimental tradicional”, dijo Robert Abel Vicepresidente Senior de Ciencia en Schrödinger. “Las instancias de Amazon EC2 P3 con sus GPU de alto rendimiento nos permiten realizar cuatro veces más simulaciones en un día que con las instancias de P2. Este aumento en el rendimiento, junto con la capacidad de escalar rápidamente en respuesta a nuevas ideas compuestas, brinda a nuestros clientes la capacidad de llevar medicamentos que salvan vidas al mercado más rápidamente”.
Disponibilidad de las AWS Deep Learning Machine Images
AWS Deep Learning Machine Images (AMIs) están disponibles en AWS Marketplace para ayudar a los clientes a comenzar en minutos. El Deep Learning AMI viene preinstalado con las últimas versiones de Apache MXNet, Caffe2 y TensorFlow con soporte para las GPU Tesla V100, y se actualizará para admitir instancias P3 con otros marcos de aprendizaje automático, como Microsoft Cognitive Toolkit y PyTorch, tan pronto como estos marcos liberen soporte para las GPU Tesla V100. Los clientes también pueden usar NVIDIA Volta Deep Learning AMI que integra contenedores de Deep Learning Framework de NVIDIA GPU Cloud, o comenzar con AMI para Amazon Linux, Ubuntu 16.04, Windows Server 2012 R2 o Windows Server 2016.
Con instancias P3, los clientes tienen la libertad de elegir el marco óptimo para su aplicación. “Estamos entusiasmados de apoyar a Caffe2 en las nuevas instancias de Amazon EC2 P3. La potencia y capacidad incomparables de las instancias P3 permiten a los desarrolladores entrenar y ejecutar modelos de manera muy eficiente a gran escala”, dijo Yangqing Jia, Gerente Científico de Investigación en Facebook. “Ayudará a las próximas innovaciones a llegar a los clientes en horas y no en días, aprovechando la velocidad con P3 y nuestro marco de aprendizaje profundo modular y escalable con Caffe2”.
Los clientes pueden iniciar instancias de P3 utilizando AWS Management Console, AWS Command Line Interface (CLI) y AWS SDK. Por lo general, las instancias Amazon EC2 P3 están disponibles en las regiones este de EE. UU. (N. Virginia), Oeste (Oregón), Unión Europea oeste (Irlanda) y Asia Pacífico (Tokio), con respaldo para regiones adicionales próximamente. Están disponibles en tres tamaños, con una, cuatro y ocho GPU, y se pueden comprar instancias bajo demanda, reserva o en algún sitio.