La aparatosa caída de un segmento de la plataforma de almacenamiento dejó fuera de línea a cientos de páginas, apps y usuarios.
CIO AMÉRICA LATINA | Por Elibeth Eduardo | @ely_e
Es poco probable que los usuarios de populares aplicaciones como Slack y Trello se sientan conformes con la explicación de que un “error humano” los privó de sus servicios este martes.
Según un post divulgado en el blog de Amazon.com Inc. un comando errónea fue la causa de la falla masiva que desconecto a internet hace dos días.
Sitios de noticias, oficinas gubernamentales y aplicaciones pueden estar tranquilos: no fue una falla de los hierros que sostienen el servicio de nube.
Y, aparentemente, no hay pérdida de información que comprometa la operatividad a largo plazo de los clientes de AWS, el mayor negocio de nube del mundo.
No obstante, la falla se un segmento de la plataforma Amazon S3 dejo en claro las debilidades del alojamiento de nube y puso a la empresa en aprietos frente a sus clientes.
El reto de la recuperación
Según el comunicado de Amazon.com Inc., la infraestructura de su nube no fue el problema ni es un tema de sobrexplotación.
“Un comando incorrecto desactivó muchos más servidores de lo que se deseaba”, precisó el reporte.
Por ello, la empresa está realizando un compromiso con sus clientes – especialmente los afectados – de que realizan mayores esfuerzos para mejorar sus tiempos de recuperación frente a fallas catastróficas.
Para los CIOS este evento es un recordatorio de la dependencia creciente de los servicios de cloud computing.
Los ahorros en infraestructura deben invertirse – parcialmente – en sistemas de respaldo y recuperación que le brinden la seguridad de que las fallas del proveedor no serán la muerte de su negocio. También que el respaldo debe alcanzar a las aplicaciones colaborativas que mantienen información sobre proyectos como Tello, Asana o Slack.
Tome nota. Un error humanos difícil de prever e imposible de evitar. Téngalo como apuesta: volverá a pasar.