Google ha diseñado la solución BigQuery para facilitar el procesamiento de la gran cantidad de data que se genera a nuestro alrededor.
CIO AMÉRICA LATINA | Por Elibeth Eduardo | @ely_e
Es un hecho: la tecnologÃa se retroalimenta a si misma y, si bien Internet genera cada dÃa más información de la que la Humanidad habÃa generado en toda su historia, se sabe que eso será exponencial con la expansión de la Internet de las Cosas (IoT).
Frente a esto, se supone que el machine learning y la Inteligencia Artificial serán fundamentales. Pero incluso estas tecnologÃas requieren cierto orden para poder satisfacer nuestras necesidades.
Con los volúmenes de data actual (y por venir) uno de los desafÃos que enfrentan los cientÃficos de datos al ejecutar cargas de trabajo de aprendizaje de máquina es procesar información antes de que esté lista para su uso.
Es decir, darle organicidad al dato en bruto. Frente a este problema creciente para todas las organizaciones, Google ha desarrollado un nuevo servicio en la nube destinado a aliviar este problema.
En realidad, es toda una baterÃa de herramientas que permitirán que la datosfera que nos abruma sea un poco menos caótica.
Ecosistemas de datos
AsÃ, respondiendo a las plegarias de quienes tratan de superar la pesadilla de décadas de datos “legados”, Google Cloud Dataprep detectará automáticamente esquemas de datos, combinaciones y anomalÃas como valores perdidos o duplicados, sin necesidad de codificación.
Después de eso, ayudará a los usuarios a crear un conjunto de reglas para procesar la información. Esas reglas se construyen a continuación en formato Apache Streams y se pueden importar a productos como Google Cloud Dataflow para procesar la información a medida que se importa en servicios como el almacén de datos de BigQuery.
Mientras que Cloud Dataprep está construido para preparar datos para el aprendizaje automático, el sistema también usa el machine learning para intentar determinar qué reglas serán más útiles para los clientes.
Además, BigQuery está recibiendo una serie de mejoras, incluyendo una versión nueva y comercial de Datasets (ahora está disponible en versión beta pública) que permitirá que los usuarios tomen información de:
- AccuWeather
- Dow Jones
- Xignite
- HouseCanary
- Remine
Machine learning más “smart”
Toda esta información podrá alimentar directamente a BigQuery para su procesamiento posterior. El servicio también puede consultar los datos almacenados en Cloud Bigtable, la base de datos administrada de Google NoSQL que ofrece datos de baja latencia.
Eso significa que los usuarios pueden escribir una consulta SQL que aproveche la información de Bigtable y BigQuery. En el pasado, tendrÃan que escribir un programa para buscar en Bigtable.
Además, los clientes de publicidad podrán enviar datos de Google Adwords, DoubleClick Campaign Manager, DoubleClick y YouTube a BigQuery para su posterior uso en analÃticas y otras apps de Big Data.
Esa caracterÃstica puede ayudar a fomentar que este tipo de los clientes de publicidad (cada vez más grande) pruebe la nube de Google y le permita tomar ventaja frente a la competencia que enfrenta de los servicios actuales de Amazon y Microsoft.
1 comentario