Un lago de datos no es una panacea para los proyectos de big data de la empresa, pero si una dimensión tecológica que todo CIO debería conocer.
1.El concepto todavía es bastante nuevo. El término lago de datos, acreditado al CTO de Pentaho, James Dixon, ha estado muy de moda durante varios años. Pero la idea de los lagos de datos como recursos para la empresa se encuentra todavía en su infancia, según el analista de IDC Ashish Nadkarni. Un lago de datos se define como un masivo – repositorio de almacenamiento, como Hadoop, que puede almacenar todo tipo de datos hasta que se necesiten para el análisis de negocios o minería de datos. Su mayor atractivo está en que es relativamente barato. Un lago de datos contiene los datos en su forma más cruda, sin procesar y sin gobierno.
2. Usted no puede comprar un lago de datos listo para usar. Los vendedores están comercializando lagos de datos como una panacea para los proyectos de grandes datos, pero eso es una falacia. Según Gartner : “al igual que el almacenamiento de datos, los lagos de datos son un concepto, no una tecnología”, dice el analista de Gartner Nick Heudecker. “Se pueden utilizar varias tecnologías para construir un lago de datos En su esencia, estos son una estrategia de almacenamiento de datos”.
3. Los lagos tienen grandes apetitos de datos. Los lagos de datos están diseñados para la ingestión de datos, el procedimiento que consiste en la recolección, la importación y el procesamiento para el almacenamiento o el uso posterior. “Cuando el modelo de costos de almacenamiento de un centro de datos puede no prestarse para mayor ingesta, un lago de datos si lo hace”, dice Heudecker. “Además, un lago de datos no requiere que los usuarios creen un esquema antes de que los datos estén disponibles para su uso. Los datos simplemente puede ser ingeridos y el esquema creado y aplicado cuando se lean los datos”.
4. Debe involucrar a múltiples facetas de la negocio. Los lagos de datos son recursos para toda la organización, no sólo para TI. Por lo tanto, todas las partes interesadas deben participar en la planificación de proyectos de lago datos. “Es fundamental para la arquitectura de big data de la empresa, y por lo tanto no se puede implementar de manera aislada”, dice Nadkarni. Además de los administradores de TI, un proyecto de lago datos debe involucrar a los líderes empresariales y los usuarios. Expertos de almacenamiento también tienen que jugar un papel clave. “Al final del día”, dice Nadkarni, “es una plataforma de almacenamiento, y por lo tanto [las empresas] deben incluir al equipo de almacenamiento en su diseño e implementación”.
5. Los mayores beneficios no provienen de la tecnología. El valor para la empresa de un lago de datos tiene muy poco que ver con las tecnologías subyacentes escogidas, dice Heudecker. “Por el contrario, el valor de negocio se deriva de las habilidades de los datos científicos que se pueden aplicar al lago”, explicó. “Los lagos de datos no son un reemplazo de plataformas o infraestructuras analíticas existentes. En su lugar, complementan los esfuerzos existentes y apoyan el descubrimiento de nuevas preguntas”. Una vez que se descubren esas preguntas, dice, a continuación se puede “optimizar” las respuestas. “Optimización puede significar salir del lago hacia mercados o almacenes de datos”, dice Heudecker.