La Apache Software Foundation ha anunciado la primera versión de Spark, el software de análisis que podría acelerar los trabajos que corren en la plataforma Hadoop.
Llamado también “la cuchilla suiza de Hadoop”, Apache Spark provee la habilidad para crear trabajos de análisis de data que pueden correr 100 veces más rápido que aquellos corriendo en el estándar Apache Hadoop MapReduce.
MapReduce ha sido criticado muy abiertamente por ser un cuello de botella para Hadoop porque ejecuta trabajos por lotes, lo que significa que el análisis de data en tiempo real no es posible.
Spark provee una alternativa a MapReduce porque ejecuta trabajos en rachas cortas de lotes que están separadas en menos de cinco segundos. También ofrece más estabilidad que frameworks en tiempo real de Hadoop como Twitter Storm.
Este software puede ser usado para una variedad de trabajos, como un análisis de datos en vivo, gracias a una librería de software, o más trabajos a profundidad en computación que tienen relación con machine learning y procesamiento de gráficos.
Usando Spark, los desarrolladores pueden escribir trabajos de análisis de data en Java, Scala o Python, usando un set de más de 80 operadores de alto nivel.
Con la versión 1.0, Apache Spark ofrece ahora una API estable, que permite que los desarrolladores usen Spark para sus propias aplicaciones.
También en la versión 1.0 está un componente SQL de Spark para acceder a data estructurada, permitiendo que la data sea interrogada junto con data no estructurada en el trabajo de análisis.
Apache Spark es compatible con Hadoop Distributed File System (HDFS), así como con otros componentes de Hadoop como YARN (Yet Another Resource Negotiator) y la base de datos distribuida HBase.
El laboratorio AMP de la Universeidad de California, Berkeley desarrolló originalmente Spark, y Apache lo adoptó como un proyecto de incubación en junio de 2013. Compañías de TI como Cloudera, Pivotal, IBM, Intel y MapR han comenzado a integrar Spark en sus repositorios de Hadoop. Databricks, una compañía fundada por algunos de los desarrolladores de Spark, ofrece soporte para el software.
Tanto Yahoo como la NASA, entre otros, usan el software para sus operaciones diarias.
Del mismo modo que el software de Apache, Apache Spark ha sido lanzado bajo la licencia Apache versión 2.0.
Fuente: CIO / Joab Jackson / 30-05-2014