Imagine lo siguiente: Usted trabaja en el departamento de Infraestructura y Operaciones (I&O) de una empresa de distribución con una presencia importante en el comercio electrónico en línea y justo hoy, al mediodía, un componente crítico de su infraestructura se cae. ¿Cómo reaccionará?
Mientras lucha por encontrar una solución, el sitio web que genera decenas de miles de dólares en ingresos al día saluda a todos sus potenciales clientes con un mensaje de error y las redes sociales comienzan a echar tierra sobre la empresa. Para empeorar las cosas: hoy no es un día normal, sino el de mayor volumen de negocio del año.
Este escenario de pesadilla es un ejemplo extremo de lo que puede representar que una compañía experimente un periodo de inactividad en el peor momento. Pero la realidad es que nunca es un buen momento para que los sistemas de la empresa queden inactivos, incluso si estaba previsto. Y es que en tanto que los empleados se vuelven móviles y la jornada de trabajo ya no es de 9 a 5, la actividad no puede parar, más aún en empresas globalizadas con distintos horarios.
Por ello, las empresas buscan cada vez más construir sistemas e infraestructuras empresariales siempre disponibles, sin caídas. Pero no existe un botón mágico que permita esto, sino un complejo y largo proceso de planificación, estrategia y desarrollo hasta encontrar el punto perfecto que permita el funcionamiento asegurado las 24 horas del día, los 365 días del año. He aquí los pasos a seguir en este difícil camino:
Paso 1: Entender los costos de inactividad de los servicios críticos
La mayoría de las empresas no han calculado el costo de la inactividad de sus servicios críticos. A pesar de que tratar de calcular el impacto de una interrupción en la reputación y la retención de clientes puede ser una tarea desalentadora, sólo el cálculo de las pérdidas de ingresos o pérdidas de la productividad puede orientarnos a la dirección correcta para evitar que nos suceda de nuevo.
Recuerde que no todos los cortes son iguales: El tiempo y duración tienen un impacto significativo en los costos de tiempo de inactividad. En el ejemplo original, el apagón fue perfectamente calculado para impactar ante el mayor número de clientes potenciales y por lo tanto, provocar el mayor impacto al negocio. ¿Qué pasa si esta interrupción se produjo a las 3 de la mañana en lugar del mediodía? ¿O si hubiera sucedido en un día diferente? ¿O qué pasaría si, en lugar de la página web caída durante cuatro horas seguidas en un solo día se hubiera interrumpido durante 30 minutos en ocho días diferentes?
Paso 2: Disponibilidad de extremo a extremo
No se debe perder de vista el almacenamiento u otro componente cualquiera de la infraestructura TI. La percepción más holística suele ser la correcta: hay que considerar y calcular en todo momento la totalidad de nuestra infraestructura y buscar siempre las soluciones que permitan resolver los problemas de extremo a extremo de la empresa.
Paso 3: Combinación adecuada entre objetivos de negocio y tecnología
Una vez que se haya calculado el costo de la inactividad y se haya cambiado el enfoque en busca de la disponibilidad de extremo a extremo, el siguiente paso es seleccionar las tecnologías adecuadas para apoyar sus servicios críticos. En la actualidad existen muchas tecnologías que pueden apoyar el “always-on”, como arquitecturas específicas para estas tareas, máquinas virtuales rápidas de reiniciarse, servicios de vigilancia y monitorización o servicios basados en la nube y deduplicación.
La parte difícil viene a la hora de encontrar un enfoque que sea a la vez compatible con sus objetivos de disponibilidad y que también coincida con lo que la empresa está dispuesta a pagar para proteger los servicios críticos.
Paso 4: La disponibilidad 100 por ciento es prácticamente imposible
Al final el objetivo de las empresas no debe ser lograr 100 por ciento de disponibilidad de sus sistemas empresariales, sino la totalidad para sus sistemas críticos. Y es que, si bien ha habido muchas empresas que han estado cerca, el mantenimiento de una infraestructura disponible en todo momento es prácticamente imposible: Hay demasiadas cosas que pueden salir mal, desde la infraestructura hasta las aplicaciones, pasando por los desastres naturales, errores humanos o incluso un mantenimiento mal planificado.
Kevin Fogarty, CIO EE.UU.