Durante su discurso en la Cumbre Spark 2014, en San Francisco, Estados Unidos, el CEO de Databricks, Ion Stoica, develó una plataforma en la nube en torno a la Apache Spark, que es un motor de procesamiento de código abierto para los grandes datos.
Spark, que consiguió su liberación v 1.0 hace apenas un mes, es una plataforma de computación clúster, diseñada para posesionarse en la parte superior del sistema de archivos Hadoop Distributed (HDFS), en lugar de Hadoop Map Reduce.
Con soporte para cluster de computación in-memory, Spark puede lograr un rendimiento hasta 100 veces más rápido que en la memoria de Hadoop Map Reduce en la memoria o 10 veces más rápido que en el disco.
Spark puede ser un excelente motor de cálculo de flujos de trabajo de procesamiento de datos; un programa de analítica avanzada, un procesamiento de flujo y de business intelligence y de analítica visual.
Databricks espera cambiar todo lo relacionado con su plataforma en la Nube, pensándola como una solución llave en mano.
“Conseguir el pleno valor de las inversiones de grandes datos sigue siendo muy difícil para las organizaciones”, dice Stoica. “Los clusters son difíciles de configurar y administrar, y extraer valor de sus datos requiere integrar una mezcolanza de herramientas dispares, que son a su vez difíciles de usar.
“Nuestra visión en Databricks es simplificar dramáticamente el procesamiento de big data y dar libertad a los usuarios para centrarse en convertir los datos en valor. Databricks Cloud cumple con esta visión al combinar el poder del encendido, con una plataforma alojada de gestión de cero y un conjunto inicial de aplicaciones construidas alrededor de los flujos de trabajo comunes”.
Databricks Cloud proporciona soporte para consultas interactivas (vía Spark SQL), la transmisión de datos (Spark Streaming), máquina de aprendizaje (MLlib) y el cómputo gráfico (GraphX) de forma propia, con una única API a través de toda la tubería de datos.
Stoica dice que el aprovisionamiento de nuevos clusters Spark es muy fácil: “sólo tiene que especificar la capacidad deseada de la agrupación y la plataforma se encarga de todo lo demás, como es el aprovisionamiento de servidores sobre la marcha, la racionalización de la importación y el almacenamiento en caché de los datos, la seguridad y la aplicación de parches y actualización de Spark”.
La plataforma cuenta con tres aplicaciones integradas:
- Notebooks. Una rica interfaz para realizar el descubrimiento y exploración de datos, portátiles puede graficar los resultados de forma interactiva, ejecutar flujos de trabajo completos como secuencias de comandos y permite funciones de colaboración avanzadas.
- Dashboards. Dashboards permite a los usuarios crear y cuadros de mando de acogida al recoger cualquier salida de los cuadernos creados previamente. Dashboards luego ensambla las salidas en un panel de una página con un editor WYSIWYG que puede ser publicada a un público más amplio.
- Lanzador de Trabajo. La Solicitud de empleo Lanzador permite a cualquier persona ejecutar los trabajos de Apache Spark arbitrarias y desencadenar su ejecución, lo que simplifica el proceso de construcción de productos de datos.
“Una de las quejas más comunes que escuchamos de usuarios en la empresa era que los grandes datos no son solamente un análisis; una verdadera canalización necesita combinar el almacenamiento de datos, ETL, exploración de datos, cuadros de mando e informes, análisis avanzados y creación de productos de datos,” dice Stoica.
“Hacer eso con la tecnología actual es muy difícil. Construimos la nube de Databricks para permitir la creación de tuberías de extremo a extremo de la caja, mientras contamos con el apoyo a una amplia gama de aplicaciones de encendido para mejorar de manera adicional la funcionalidad. Fue diseñado para atraer a una nueva clase de usuarios que van a adoptar los grandes datos, ahora que muchas de las complejidades de su uso han sido eliminados”.
La construcción del Big Data
Stoica observa que las aplicaciones incorporadas son sólo el comienzo. Databricks nube se basa en el 100% de código abierto Apache Spark, lo que significa que todas las aplicaciones actuales y futuras de los “Certificado sobre Spark” se ejecutan en la plataforma de la caja, incluyendo la docena de aplicaciones que Databricks ha certificado desde el lanzamiento de su programa de certificación en febrero de este año.
Y Stoica dice que “usted puede dar vuelta alrededor de la ecuación. Cualquier aplicación Spark desarrollada sobre la Nube de Databricks trabajará a través de cualquier “Distribución certificada de Spark “, lo que significa que los usuarios no serán bloqueados en la plataforma alojada.
Databricks lanzó su programa de certificación de distribución y ya Datastax, Hortonworks, IBM, Oracle y Pivotal aprobaron el proceso.
La nube Databricks se encuentra actualmente en beta cerrada con varios usuarios y se abrirá a una beta con disponibilidad limitada en las próximas semanas, señaló Stoica.
Añade que la plataforma seguirá un modelo de fijación de precios diferenciados en función del uso. La plataforma sólo estará disponible en Amazon Web Services (AWS).