Los ingenieros de datos tiene un nuevo desafío: entender y atender el impacto que el Data Fabric en su rol.
Esta estructura de datos no solo mejora la eficiencia, sino que también redefine las funciones de los profesionales.
Por: Israel Martignon | Senior Solutions Consultant de Appian
Hecho: los ingenieros de datos son los arquitectos de una infraestructura de datos escalable y resistente. A medida que la tecnología avanza, su papel es cada vez más exigente.
Las organizaciones están ampliando su presencia en la nube, e incorporando análisis de Inteligencia Artificial (IA) en tiempo real en las operaciones.
Pero una IA receptiva y precisa requiere datos en tiempo real. Esto hace que los ingenieros de datos se enfrenten a la presión de proporcionar datos procesables más rápido y con menos recursos. Ello no es una tarea fácil cuando se trata de fuentes de datos desconectadas y en silos.
Pero el panorama de la ingeniería de datos está siendo transformado por Data Fabrics. Las estructuras de datos conectan las fuentes de éstos en una capa virtual, para que los ingenieros puedan centrarse en el trabajo innovador que las organizaciones necesitan para mantener su ventaja competitiva.
La estructura de datos no solo mejora la eficiencia sino que, también, redefine las funciones de los profesionales.
Data Fabric y la reinvención de los roles
Históricamente, los ingenieros de datos han creado la infraestructura y los sistemas de gestión de datos, y los científicos los han analizado y creado modelos a partir de ellos. Pero Data Fabric está difuminando la línea entre estos roles.
Los ingenieros de datos con habilidades analíticas de ciencia de datos están en la mejor posición para agregar valor a medida que las arquitecturas de Data Fabric se vuelven más potentes.
Estas son tres formas en que los ingenieros de datos pueden adaptarse para mantenerse al día con los requisitos cambiantes de sus funciones:
1.- Pasar de programador a innovador
Los ingenieros de datos utilizan Python, Python R y otros lenguajes y herramientas estadísticos para extraer datos de fuentes aisladas.
Una vez centralizados, pueden gestionar y transformar los datos antes de pasarlos a la siguiente etapa del proceso.
La creación de estas canalizaciones de datos a menudo implica codificar o unir muchos scripts de alto código.
Al igual que cualquier enfoque tradicional de ingeniería de software, esto introduce errores de codificación que causan retrasos y riesgos de seguridad.
Data Fabric simplifica la conectividad de datos al permitir una fácil integración entre diferentes sistemas.
Ya sea JDBC (Java Database Connectivity) para bases de datos o HTTP (Hypertext Transfer Protocol) para integraciones, Data Fabric unifica el panorama de datos y reduce el riesgo de errores.
También es compatible con las capacidades de generación de informes, lectura y reescritura en tiempo real, las cuales permiten el autoservicio para los usuarios finales. Ello les permite acceder a los registros de los clientes y actualizarlos en una sola interfaz.
Sin embargo, no todas las estructuras de datos tienen capacidades tanto de lectura como de escritura que se escalen para casos de uso grandes y complejos.
Como explica el CTO y fundador de Appian, Michael Beckley:
“Las estructuras de datos son cada vez más el plano de datos preferido en las pilas de IA de las empresas, pero la mayoría están optimizadas para el acceso de solo lectura y no se escalan bien para escrituras más allá de 2.000 filas por registro“.
Appian Data Fabric puede leer y escribir de forma nativa 10 millones de filas por registro, lo cual lo hace escalable para los procesos empresariales.
Los ingenieros de datos deben conocer la escalabilidad de la estructura de datos con la que trabajan, ya que afectará a la medida en que pueden pasar de la codificación a un trabajo más innovador.
Las estructuras de datos empresariales representan un cambio fundamental.
Al eliminar casi por completo la necesidad de mantenimiento y resolución de problemas de las tuberías, Data Fabric permite a los ingenieros centrar su atención en actividades de mayor valor como:
-
El modelado de datos
-
El desarrollo de algoritmos
-
Y la analítica avanzada
Tales áreas, históricamente, han sido del dominio de los científicos de datos.
Esto significa que los ingenieros de datos están impulsando, cada vez más, los conocimientos empresariales y la toma de decisiones estratégicas.
Ello en lugar de, simplemente, permitir el movimiento de datos.
2.- Utilice la información de datos en tiempo real para ser más proactivo
Las estructuras de datos unifican los datos entre las fuentes. Pero las estructuras de datos operativas van un paso más allá, al incorporar el procesamiento de datos en tiempo real.
Con el acceso a datos en tiempo real, las empresas pueden reaccionar a la información y tomar decisiones más rápidas basadas en datos.
Por ejemplo, un tejido de datos operativos proporciona información de inventario en tiempo real para que los gerentes y proveedores puedan tomar decisiones proactivas que mantengan la cadena de suministro funcionando sin problemas.
Las estructuras de datos operativos también facilitan la generación de informes.
Tradicionalmente, los ingenieros de datos tenían que crear y gestionar flujos de trabajo complejos de procesamiento por lotes para informar sobre la información.
Pero los tejidos de datos operativos transforman los datos con una intervención mínima. Esto significa que los usuarios empresariales pueden acceder a informes en tiempo real y recibir alertas para tomar medidas rápidas.
Mientras tanto, los ingenieros pueden cambiar su enfoque de la resolución de problemas reactiva a la optimización proactiva.
3.- Dedique menos tiempo a la seguridad y más tiempo a la estrategia
La seguridad es esencial en la ingeniería de datos. Es complejo, es fácil equivocarse y tiene altas consecuencias. Esto es especialmente cierto si una empresa utiliza un lago de datos o un modelo de almacén.
Con este enfoque, todos los datos confidenciales están en un solo lugar, si los datos se ven comprometidos, la violación es catastrófica y las herramientas tradicionales colocan toda la carga de la seguridad en el ingeniero de datos.
La estructura de datos traslada la mayor parte de la responsabilidad de la persona o grupo de ingenieros a la plataforma subyacente.
La mejor tecnología de Data Fabric opera con una gobernanza sólida, con seguridad integrada en el modelo y definida en varias capas de datos en función de los roles.
Las reglas contextuales determinan dinámicamente quién puede acceder y a qué. Como resultado, las políticas de control son coherentes en todas las aplicaciones y flujos de trabajo.
Por ejemplo, un ingeniero puede definir reglas de acceso a datos basadas en los atributos del usuario. Estas políticas se aplican universalmente, ya sea que se acceda a los datos a través de un panel interno, una API o un modelo de IA externo.
Esto elimina el riesgo de brechas de seguridad accidentales. También garantiza que la gobernanza se mantenga automáticamente en todos los entornos.
Data Fabric convierte a los ingenieros de datos de guardianes a facilitadores. En lugar de gestionar las configuraciones de seguridad, pueden centrarse en diseñar entornos de datos escalables y compatibles.
Al aliviar la carga de la seguridad de los ingenieros, Data Fabric los libera para que asuman el trabajo más estratégico y analítico que solía dejarse en manos de los científicos de datos.
Un futuro unificado para ingenieros de datos y científicos
En el futuro, los ingenieros de datos ya no se centrarán únicamente en la infraestructura. En su lugar, trabajarán en entornos dinámicos e inteligentes.
A medida que Data Fabric agilice los flujos de trabajo, los ingenieros cambiarán hacia la creación de plataformas de autoservicio. Afinarán las políticas de gobernanza y optimizarán los datos para la toma de decisiones en tiempo real.
La frontera entre los ingenieros de datos y los científicos de datos se difuminará. Los ingenieros deberán desarrollar una comprensión más profunda de las metodologías de ciencia de datos. Los científicos de datos necesitarán una mayor fluidez en la arquitectura de datos.
El resultado será una fusión de las dos funciones en una disciplina más amplia, en la que la experiencia técnica y el conocimiento analítico se unen para obtener mejores resultados de los datos.