A medida que las empresas tratan de entrar en el mundo de Big Data -mediante la digitalización de documentos de papel y guardando las comunicaciones por correo electrónico, archivos de documentos de Word, Excel y todo tipo de otros datos no estructurados, con la esperanza de examinarlos para conseguir una inteligencia de negocios accionable- necesitan hacer frente a un gran problema: el almacenamiento.
“Las empresas de pronto han acumulado petabytes de información”, señala Nick Kirsch, director de gestión de producto de EMC Isilon. “Se enfrentan a un reto similar: tienen toda esta información, ¿cómo hacer uso de ella y cómo guardarla en una arquitectura escalable?”
Una posibilidad consiste en escalar verticalmente. La idea es hacer que sus nodos de almacenamiento existentes sean más grandes, más rápidos y/o más poderosos mediante la sustitución de los dispositivos de almacenamiento existentes, con nuevos dispositivos de mayor capacidad. La consolidación de la infraestructura de almacenamiento es atractiva, ya que simplifica la administración y reduce la cantidad de espacio y energía consumida. Pero también tiene problemas: no puede abarcar varias ubicaciones con facilidad, no tiene mucha capacidad de recuperación general inherente, y los dispositivos más grandes y de alto rendimiento de almacenamiento pueden ser caros. Y cuando se trata de las cada vez mayores inundaciones de información, el mayor problema es que los dispositivos actuales de almacenamiento tienen cierto límite.
“Se puede construir un controlador más grande y más grande”, señala Kirsch. “Pero en algún momento no pondrá hacer que ese sistema sea más grande y tendrá que añadir un segundo sistema. De este modo podría terminar con cientos de unidades separadas que administrar”.
En cambio, agrega Kirsch, escalar horizontalmente con la NAS es el camino a seguir. Una arquitectura NAS horizontal renuncia a los dispositivos de almacenamiento costosos y de alta capacidad, por productos de almacenamiento combinados en una suite total de almacenamiento. En lugar de hacer grandes nodos, añada nodos según sea necesario. La desventaja es que podría rápidamente terminar con un entorno de gestión mucho más complejo. Pero puede abarcar varias ubicaciones y tiene una gran cantidad de elasticidad inherente. Y, quizás, lo más importante desde la perspectiva de la gestión de grandes datos, es que se puede añadir capacidad de almacenamiento rápida y económicamente.
“Creo que la cosa más grande que vemos, la queja más grande cuando se trata de almacenamiento, es que es muy fácil manejar una sola unidad, pero cuando tiene dos o más unidades se hace complicado”, indica Kirsch.
Para Big Data, la NAS es preferible a la SAN, agrega Kirsch, ya que SAN no se construyó para los datos no estructurados y el intercambio de archivos. Para utilizar SAN con protocolos de red como NFS o CIFs/SMB, tendría que implementar servidores de archivos frente a la SAN, lo que resulta en la complejidad de la administración adicional y afecta la escalabilidad.
Los cinco principios de la escalada NAS
La simplicidad es lo primero que resalta Kirsch como uno de los cinco principios que los directores de TI deben buscar en la arquitectura NAS de escala horizontal:
Fácil de escalar. “Esta arquitectura de próxima generación que están buscando debe ser simple de escalar”, señala Kirsch. “Si tengo una unidad de 1TB, es un volumen que puede manejar, puedo protegerlo y replicarlo. ¿Por qué no puedo manejar 15 petabytes con esa misma sencillez? No debería ser más complicado porque es más grande”. Las arquitecturas NAS de escala horizontal pueden abordar este problema con administración de software y una capa de virtualización/abstracción que hace que los nodos se comporten como un solo sistema.
Predecible. “El rendimiento debe ser predecible”, añade Kirsch. Si añado 6TB esta semana y 6TB la próxima semana, quiero la misma escalabilidad lineal en términos de rendimiento. No quiero tener que reorganizar mi aplicación o re educar a mis usuarios. Solo quiero que aumente de una manera predecible. Quiero que se pague a medida que crece. Que no me obligue a invertir excesivamente. Yo sé que la ley de Moore me va a dar computación más rápido el próximo mes y que las unidades se van a poner más densas en el tiempo. Permítanme tomar ventaja de eso en mi infraestructura de almacenamiento. Y por favor, deje que esto se comparta simétricamente por la arquitectura. No me obligue a comprender las diferencias en su arquitectura. Permítanme ampliar este sistema como lo necesito”.
Eficiente. “Voy a aprovechar todos los recursos en mi sistema de almacenamiento, independientemente de dónde se encuentren”, señala Kirsch. “Permítanme utilizar la gran fuera de mis unidades de disco físicas, no al 50% 0 55%, pero más del 80% del almacenamiento se debe utilizar para mis datos. Independientemente de dónde esté la CPU, o el cálculo, o la caché, déjeme tomar ventaja de eso. Ya sea que la aplicación de aquí es más popular o la aplicación de allá, quiero que el sistema de almacenamiento maximice el rendimiento de dicha aplicación. Y por favor, integre niveles a este sistema. En otras palabras, debe mover la información para optimizar el rendimiento o la capacidad. La escala horizontal NAS para Big Data tiene que ser lo suficientemente inteligente como para automatizar esto por usted”.
Disponible. “Esto tiene que estar disponible todo el tiempo”, añade Kirsch. “Saque ventaja de la arquitectura de N-way. Permítanme sobrevivir a más de dos fracasos. Permítanme sobrevivir cuando se caiga un rack en mi entorno. Yo quiero que esto pase todo el tiempo. Y que sea flexible. Permítanme alinear la disponibilidad de la protección del sistema con las necesidades de las unidades de mis negocios. Si ellos están dispuestos a invertir más, les puedo dar una mayor disponibilidad. Si los datos son menos valiosos, puedo darles una menor disponibilidad”. Reducida, ya que una infraestructura de almacenamiento horizontal NAS se basa en el hardware de los productos básicos, hay una suposición de que el hardware producirá un error, y que el sistema tendrá que ser diseñado para hacer frente a una mayor tasa de fallas de hardware”.
Probado en la empresa. “A medida que la tecnología ha madurado, ya no es el proyecto paralelo que está fuera de TI”, señala Kirsch. “Es una parte clave de TI. Tiene que tener instantáneas, replicación, cuotas y todas las otras características tradicionales de TI. Esta tecnología realmente evolucionó a partir de una raíz de HPC, pero si va a construir un sistema de escalada, en última instancia, tiene que construirla para adaptarse a un entorno empresarial”.
Thor Olavsrud, CIO (EE.UU)