De la misma forma en que Microsoft llevó el procesamiento de la hoja de cálculo al mundo de los negocios a través de su ahora omnipresente Excel, la compañía espera tener un impacto similar con el análisis de big data con su nuevo servicio Windows Azure HDInsight.
“Creo que lo que siempre hemos hecho bien como compañía es tomar los problemas complicados de la tecnología y simplificarlos. Así que estamos simplificando Hadoop, y llevándolo a todos”, sostuvo Eron Kelly, gerente general de Microsoft para el grupo de plataforma de datos.
Windows Azure HDInsight, que se ofrece en Windows Azure como PaaS (platform as a service), proporciona una copia de la plataforma de procesamiento de datos Apache Hadoop y herramientas asociadas. HDInsight usará la Hortonworks Data Platform (HDP), que es la distribución Hadoop insignia que ofrece Hortonworks.
Microsoft no es la primera en ofrecer Hadoop como servicio de nube. Amazon Web Services ofrece Hadoop y Rackspace planea ofrecer HDP también como servicio pronto. El servicio de alojamiento SoftLayer de IBM también anunció esta semana que ofrecería la capacidad de separar rápidamente copias de la distribución Hadoop de Cloudera entre varios servidores ‘en el puro fierro’.
Pero Microsoft espera forjar una ventaja competitiva en este creciente campo simplificando el proceso de desplegar y luego usar Hadoop.
Por ejemplo, el servicio funciona bien con las herramientas de análisis de datos de Microsoft. Los usuarios de la hoja de cálculo Excel pueden desplegar una característica de la hoja de cálculo, llamada power BI, para ingerir, y luego analizar y visualizar los datos entregados por Hadoop MapReduce.
Microsoft inicialmente anunció planes para este servicio en el 2011. Originalmente, la compañía tenía la intención de desarrollar su propia versión de Hadoop, junto con Hortonworks, los cuales estarían configurados para correr en Windows Server.
“Nos dimos cuenta muy rápido que habría un nivel de redundancia entre lo que proporcionaría Hortonworks y lo que nosotros íbamos a proporcionar. Así que decidimos alinearnos en una oferta core, HDP en Windows”, sostuvo Kelly. Microsoft contribuyó con más de 16 mil líneas de código a Apache Hadoop, un proyecto de código abierto, y software relacionado.
Windows Azure HDInsight correrá una versión stock de HDP, permitiendo a los usuarios mover sus cargas de trabajo entre Azure y otros despliegues no Azure HDP, sostuvo Kelly. Luego de que Hortonworks lance su siguiente versión de HDP, la versión 2.0 estará programada para el siguiente mes, la versión de Azure de HDP recibirá automáticamente un upgrade.
La compañía ha estado corriendo en realidad Windows Azure HDInsight en modo full production, por lo menos en clientes seleccionados, por un par de meses, indicó Kelly.
La ciudad de Barcelona ha utilizado el servicio para analizar los patrones de tráfico, recolección de basura y datos acerca de otras tareas municipales, esperando que los datos sean útiles para tomar decisiones más informadas en cuanto al gasto.
Un grupo de investigadores del Virginia Polytechnic Institute and State University están usando el servicio para correr secuenciamiento de ADN.
Quentin Clark, vicepresidente corporativo del grupo de plataforma de datos de Microsoft, dirá más cosas sobre Windows Azure HDInsight en la conferencia O’Reilly’s Strata and Hadoop World, esta semana en Nueva York.
Joab Jackson, IDG News Service