¡Teman a Hadoop! ¡Expondrá a su compañía a las hordas de los hackers! Afortunadamente, este nuevo producto de seguridad de Big Data lo soluciona todo.
Cuando empezó Hadoop, tenía un problema de seguridad. La respuesta de los diferentes suministradores y proponentes de Hadoop tendía a ser algo como “vemos la seguridad como un problema del frontal de la aplicación”, que es la respuesta que se da cuando no se tiene una buena respuesta.
Desde entonces, soluciones como Apache Knox y Cloudera Manager han ofrecido respuestas de autorización y autenticación para funciones básicas de gestión de base de datos. El sistema de ficheros subyacente de Hadoop incorpora ahora permisos tipo Unix.
Pero esto no cancela completamente el problema, principalmente por lo forma en que piensan los emprendedores: si no pueden traer una nueva idea, coloca la palabra “Seguridad” sobre una nueva tecnología, y ya tienes “una gran idea para un nuevo start-up”. Rebusca en la papelera de la historia reciente y encontrarás start-ups dedicadas a seguridad SOA, seguridad AJAX, seguridad de código abierto, etc. Ahora ya tenemos start-ups de seguridad de big data, y ¡suena el dinero! ¿Y cómo lanzas una start-up de seguridad? ¡Atemoriza a la gente! (según dice Andrew Oliver en InfoWorld)
El problema real de seguridad con Hadoop en particular y big data en general no está con los derechos de acceso de cada día. El gran problema es que cuando se agregan una gran cantidad de datos, se pierde el contexto. Mientras que dudo que mucha gente esté agregando muchos datos sin ningún contexto, agregar cualquier dato significa perder algún contexto. Una arquitectura altamente escalable como Hadoop hace posible almacenar contexto también, pero chequear todo ese contexto con cada pieza de datos es una proposición cara.
Esto es lo que debe saber sobre contexto. Aunque aprenda mucho sobre autenticación y autorización en cualquier curso básico de informática, los detalles más importantes algunas veces se retuercen. Sí, se puede tener acceso a una base de datos como un determinado usuario, y sí, puede tener acceso a la tabla de cuentas de banco, pero ¿a qué filas puede acceder? Cuantos más datos se agregan, crece el reto de preservar permisos y derechos granulares.
¿Cómo puede mantener todas esas reglas de propiedad y contexto de datos sin matar al rendimiento que motivó que eligiera una solución de big data? Bien, hay soluciones emergentes de tecnología, como Accumulo, creadas por la comunidad de big data, incluyendo al miembro favorito de todos, la NSA.
Afortunadamente, esto ya está todo pensado en gran detalle. De hecho, hace casi exactamente una década, esto era un tema caliente. Cuando esté desarrollando su proyecto de big data que agrega datos de múltiples lugares en la compañía y se pregunte por la seguridad, sugiero simplemente que haga una búsqueda sobre “datawarehouse security”. Aunque el 70% sean discursos de fabricantes o quejas, encontrará múltiples resultados de cómo se ha hecho esto antes. Mucho de este material publicado ya anteriormente no describe tecnologías ni herramientas, sino metodologías, y estas se trasladan más o menos directamente a big data.
Y ahora si me permiten, voy a trabajar en mi presentación sobre la solución de seguridad de big data NoSQL SaaS basada en la nube, orientada especialmente hacia Hadoop.
Andrew C.Oliver / Infoworld EE.UU.