Cloudera, empresa distribuidora de Hadoop, ha lanzado una edición comercial del programa Apache Spark, el cual analiza datos en tiempo real desde el interior de los ambientes Hadoop de Cloudera.
El release tiene el potencial de ampliar el uso de Hadoop para el procesamiento de streams y un aprendizaje de máquina más rápido.
“Los científicos de datos aman Spark”, sostuvo Matt Brandwein, director de marketing de producto de Cloudera.
Spark trabaja bien en el aprendizaje de máquina, el cual requiere de múltiples iteraciones sobre el mismo conjunto de datos, indicó Brandwein.
“Históricamente, uno hace esas cosas con MapReduce, si estás usando Hadoop. Pero MapReduce es realmente lento”, señaló Brandwein, refiriéndose a que el framework MapReduce requiere de muchas lecturas y escrituras múltiples al disco para llevar a cabo las tareas de aprendizaje de máquina. Spark puede realizar esta tarea mientras los datos se encuentran aún en la memoria de trabajo. Los que mantienen el software señalan que Spark puede correr programas hasta 100 veces más rápido que el propio Hadoop, gracias a su modelo de diseño in memory.
Spark también es bueno para procesar streaming, en donde puede monitorear un flujo constante de datos y llevar a cabo ciertas funciones si se cumplen ciertas condiciones.
Por ejemplo, el procesamiento de streams podría aplicarse a la gestión de fraudes y de eventos de seguridad. “En estos casos, uno está analizando datos en tiempo real para detectar cualquier anomalía y tomar acción”, indicó Brandwein. Los datos también pueden descargarse al sistema de archivos de Hadoop para conseguir una mayor interactividad y un análisis más profundo del procesamiento batch.
Apache Spark, que se desarrolló por primera vez en la Universidad de California en Berkeley, proporciona una forma de cargar los datos de streaming en la memoria de trabajo de un cluster de servidores, en donde puede ser usada en tiempo real. No tiene un límite superior en relación a cuántos servidores o cuánta memoria puede usar.
Se basa en la más reciente versión de la red de procesamiento de datos de Hadoop, la cual utiliza YaRN (Yet another Research Negotiator). Spark no requiere del framework MapReduce, el cual opera en modo batch. Tienen API (application programming interfaces) para Java, Scala y Python. Nativamente puede leer datos del HDFS (Hadoop File System), la base de datos HBase Hadoop y el almacén de datos Cassandra.
El Apache Spark Project tiene más de 120 desarrolladores que han contribuido con el proyecto, y la tecnología ha sido usada por Yahoo, Intel y varios otras compañías más pequeñas. DataBricks, que ofrece su propia versión comercial de Spark, ofrece soporte para Spark a nombre de los usuarios de Cloudera.
La idea de aplicar un análisis tipo Hadoop a los datos de streaming no es nueva. Twitter mantiene Storm, un conjunto de software de código abierto que usa para analizar mensajes.
Además de Spark, Cloudera también anunció que había reempaquetado su oferta Hadoop comercial en tres paquetes separados: la edición Basic, la edición Flex y la Enterprise Hub Edition. La Enterprise Hub empaqueta todas las herramientas adicionales que Cloudera ha integrado con Hadoop, incluyendo HBase, Spark, capacidades de copia de respaldo y la edición analítica Impala. La edición Flex permite al usuario elegir una herramienta adicional al núcleo de Hadoop.
Cloudera también ha cambiado el nombre de su edición Cloudera Standard a Cloudera Express.
Joab Jackson, IDG News Service