Hewlett-Packard ha visto un forma de hacer funcionar los programas escritos en lenguaje estadístico R a lo largo de los conjuntos de datos que se alojan en más de un servidor, preparando el camino hacia el análisis predictivo en tiempo real y a gran escala.
“Históricamente el uso del Big Data se ha focalizado siempre en el pasado”, señaló Jeff Veis, vicepresidente de marketing para la unidad de negocio de Big Data. Mientras que el nuevo software permitiría a las organizaciones “anticiparse a las nuevas tendencias” usando grandes conjuntos de datos, ha agregado.
Mientras que varios paquetes comerciales ofrecen maneras de utilizar R en los clúster de las computadoras, el nuevo Distributed R de HP es el primero en ofrecer esta capacidad en un paquete de código abierto, añade el directivo.
Con millones de usuarios en todo el mundo, la fuente de código abierto R es uno de los lenguajes de programación más extendidos, especialmente diseñado para análisis estadísticos y predictivos, junto a SAS, MatLab, Mathematica y un número de librerías Pynthon. La ejecución de R con grandes conjuntos de datos ha sido, sin embargo, un desafío, ya que funciona como una sola secuencia en la computadora. Esta aproximación limita la cantidad de datos que pueden ser analizados, por ello con frecuencia los científicos de datos analizan solo una muestra de los datos, y no la muestra entera, lo que potencialmente reduce la precisión del resultado.
El nuevo paquete de HP incluye un conjunto de algoritmos creados por Laboratorios HP para la ejecución de R en múltiples computadoras a la vez, permitiendo el análisis de miles de millones de filas de datos. Esta aproximación permite analizar todo el conjunto de datos.
En primer lugar, HP creo Distributed R para ser ejecutado en el sistema de bases de datos orientados en columnas de Vertica, creado para facilitar el análisis de terabytes de datos.
Distributed R ha sido lanzado bajo la versión 2 de la licencia de código abierto GPL y puede funcionar con otras bases de datos y plataformas de proceso añadidas a Vertica, como Hadoop. Es completamente compatible con las herramientas de desarrollo R Studio y R console.
Joab Jackson, IDG News Service
¿QUÉ PASARÍA SI PIERDES TU CELULAR EN MÉXICO DF? ENTÉTARE EN INSIDE THE STANDARD.