Los datos de los algoritmos pueden ser invaluables, pero estos errores de análisis e inteligencia artificial ilustran lo que puede salir mal.
Por Thor Olavsrud
Original de IDGN
En 2017, The Economist declaró que los datos, en lugar del petróleo, se habían convertido en el recurso más valioso del mundo.
El estribillo se repite desde entonces.
Las organizaciones de todas las industrias han invertido y continúan invirtiendo fuertemente en datos y análisis.
Pero al igual que el petróleo, los datos y la analítica tienen su lado oscuro.
Según el informe State of the CIO 2021 de IDG, el 39% de los líderes de TI dicen que el análisis de datos impulsará la mayor inversión en TI en su organización este año, en comparación con el 37% en 2020.
Los conocimientos adquiridos a partir de análisis y acciones impulsadas por algoritmos de aprendizaje automático e inteligencia artificial dan a las organizaciones una ventaja competitiva, pero los errores pueden ser costosos en términos de reputación, ingresos o, incluso, vidas.
Comprender sus datos y lo que le dicen es importante, pero también es importante comprender sus herramientas, conocer sus datos y tener en cuenta los valores de su organización.
Aquí hay un puñado de análisis de alto perfil y errores de inteligencia artificial de la última década para ilustrar lo que puede salir mal.
1. Zillow anotó millones de dólares y redujo drásticamente la fuerza laboral debido al desastre algorítmico en la compra de vivienda
En noviembre de 2021, el mercado inmobiliario en línea Zillow dijo a los accionistas que cerraría sus operaciones de Zillow Offer y recortaría el 25% de la fuerza laboral de la compañía, unos 2.000 empleados, durante los próximos trimestres.
Los problemas de la unidad de cambio de vivienda fueron el resultado de la tasa de error en el algoritmo de aprendizaje automático que utilizó para predecir los precios de las viviendas.
Zillow Offer fue un programa a través del cual la compañía hizo ofertas en efectivo sobre propiedades basadas en un “Zestimate” de valores de vivienda derivado de un algoritmo de aprendizaje automático.
La idea era renovar las propiedades y reformarlas rápidamente. Pero un portavoz de Zillow le dijo a CNN que el algoritmo tenía una tasa de error promedio del 1,9% y que la tasa podría ser mucho más alta – hasta un 6,9% – para las viviendas fuera del mercado.
CNN informó que Zillow compró 27.000 casas a través de Zillow Offer desde su lanzamiento en abril de 2018, pero vendió solo 17.000 hasta fines de septiembre de 2021.
Los eventos de cisne negro como la pandemia de COVID-19 y la escasez de mano de obra para la renovación de viviendas contribuyeron a los problemas de precisión del algoritmo.
Zillow dijo que la Inteligencia artificial lo había llevado, involuntariamente, a comprar casas a precios más altos que sus estimaciones actuales de precios de venta futuros, lo que resultó en una reducción de inventario de US$ 304 millones en el tercer trimestre de 2021.
En una conferencia telefónica con inversores después del anuncio, el cofundador y director ejecutivo de Zillow, Rich Barton dijo que era posible modificar el algoritmo, pero que en última instancia era demasiado arriesgado.
2. Reino Unido perdió miles de casos de COVID al exceder el límite de datos de la hoja de cálculo
En octubre de 2020, Public Health England (PHE), el organismo gubernamental del Reino Unido responsable de contabilizar las nuevas infecciones por COVID-19, reveló que casi 16.000 casos de coronavirus no se denunciaron entre el 25 de septiembre y el 2 de octubre.
¿El culpable? Limitaciones de datos en Microsoft Excel.
PHE utiliza un proceso automatizado para transferir los resultados de laboratorio positivos de COVID-19 como un archivo CSV a las plantillas de Excel utilizadas por los paneles de informes y para el seguimiento de contactos.
Desafortunadamente, las hojas de cálculo de Excel pueden tener un máximo de 1.048.576 filas y 16.384 columnas por hoja de trabajo.
Además, PHE enumeraba los casos en columnas en lugar de filas. Cuando los casos excedieron el límite de 16.384 columnas, Excel cortó los 15.841 registros en la parte inferior.
La “falla” no impidió que las personas que se sometieron a la prueba recibieran sus resultados, pero obstaculizó los esfuerzos de rastreo de contactos, lo cual dificultó que el Servicio Nacional de Salud (NHS) del Reino Unido identificara y notificara a las personas que estaban en contacto cercano con pacientes infectados.
En un comunicado el 4 de octubre, Michael Brodie, director ejecutivo interino de PHE, dijo que NHS Test and Trace y PHE resolvieron el problema rápidamente y transfirieron todos los casos pendientes de inmediato al sistema de rastreo de contactos de NHS Test and Trace.
PHE implementó una “mitigación rápida” que divide archivos grandes y ha realizado una revisión completa de todos los sistemas para evitar incidentes similares en el futuro.
3. El algoritmo de atención médica no pudo seleccionar a los pacientes negros
En 2019, un estudio publicado en Science reveló que un algoritmo de predicción atención médica, utilizado por hospitales y compañías de seguros en los EE. UU. para identificar a los pacientes que necesitaban programas de “administración de atención de alto riesgo”, tenía muchas menos probabilidades de identificar a los pacientes negros.
Los programas de administración de atención de alto riesgo brindan personal de enfermería capacitado y monitoreo de atención primaria a pacientes con enfermedades crónicas en un esfuerzo por prevenir complicaciones graves.
Pero era mucho más probable que el algoritmo recomendara pacientes blancos para estos programas que pacientes negros.
El estudio encontró que el algoritmo utilizó el gasto en atención médica como un indicador para determinar la necesidad de atención médica de un individuo.
Pero, según Scientific American, los costos de atención médica de los pacientes negros más enfermos estaban a la par con los costos de las personas blancas más sanas, lo que significaba que recibían puntuaciones de riesgo más bajas incluso cuando su necesidad era mayor.
Los investigadores del estudio sugirieron que algunos factores pueden haber contribuido.
Primero, las personas de color tienen más probabilidades de tener ingresos más bajos lo que, incluso cuando están aseguradas, puede hacer que tengan menos probabilidades de acceder a la atención médica.
El sesgo implícito en la Inteligencia Artificial también puede hacer que las personas de color reciban una atención de menor calidad.
Si bien el estudio no nombró el algoritmo ni al desarrollador, los investigadores le dijeron a Scientific American que estaban trabajando con el desarrollador para abordar la situación.
4. Dataset entrenó al chatbot de Microsoft para que lanzara tweets racistas
En marzo de 2016, Microsoft descubrió que el uso de interacciones de Twitter como datos de entrenamiento para algoritmos de aprendizaje automático puede tener resultados desalentadores.
Microsoft lanzó Tay, un chatbot de inteligencia artificial, en la plataforma de redes sociales. La empresa lo describió como un experimento de “comprensión conversacional”.
La idea era que el chatbot asumiera la personalidad de una adolescente e interactuara con personas a través de Twitter, utilizando una combinación de aprendizaje automático y procesamiento del lenguaje natural.
Microsoft lo sembró con datos públicos anónimos y algún material escrito previamente por comediantes, luego lo dejó suelto para aprender y evolucionar a partir de sus interacciones en la red social.
En 16 horas, el chatbot publicó más de 95.000 tweets, y esos tweets rápidamente se volvieron abiertamente racistas, misóginos y antisemitas.
Microsoft suspendió rápidamente el servicio para realizar ajustes y finalmente lo desconectó.
“Lamentamos profundamente los tweets ofensivos e hirientes no intencionados de Tay, que no representan quiénes somos o lo que representamos, ni cómo diseñamos Tay”, declaró Peter Lee, vicepresidente corporativo de Microsoft Research & Incubations (entonces vicepresidente corporativo presidente de Microsoft Healthcare), en una publicación en el blog oficial de Microsoft después del incidente.
Lee señaló que el predecesor de Tay, Xiaoice, lanzado por Microsoft en China en 2014, había tenido conversaciones exitosas con más de 40 millones de personas en los dos años anteriores al lanzamiento de Tay.
Lo que Microsoft no tomó en cuenta fue que un grupo de usuarios de Twitter comenzaría inmediatamente a twittear comentarios racistas y misóginos a Tay.
El bot aprendió rápidamente de ese material y lo incorporó a sus propios tweets.
“Aunque nos habíamos preparado para muchos tipos de abusos del sistema, no habíamos realizado una supervisión crítica para este ataque específico. Como resultado, Tay tuiteó palabras e imágenes tremendamente inapropiadas y reprobables”, escribió Lee.
5. La herramienta de reclutamiento habilitada por Amazon AI solo recomienda hombres
Al igual que muchas grandes empresas, Amazon está hambriento de herramientas que puedan ayudar a su función de RR.HH. a seleccionar aplicaciones para los mejores candidatos.
En 2014, Amazon comenzó a trabajar en un software de reclutamiento impulsado por inteligencia artificial para hacer precisamente eso. Solo había un problema: el sistema prefería ampliamente a los candidatos masculinos.
En 2018, Reuters dio la noticia de que Amazon había cancelado el proyecto.
El sistema de Amazon otorgó a los candidatos calificaciones de estrellas de 1 a 5. Pero los modelos de aprendizaje automático en el corazón del sistema se entrenaron en 10 años de currículums enviados a Amazon, la mayoría de ellos de hombres.
Como resultado de esos datos de capacitación, el sistema comenzó a penalizar frases en el currículum que incluían la palabra “mujeres” e incluso rebajó a los candidatos de universidades exclusivamente para mujeres.
En ese momento, Amazon dijo que sus reclutadores nunca utilizaron la herramienta para evaluar candidatos.
La empresa intentó editar la herramienta para hacerla neutral, pero finalmente decidió que no podía garantizar que no aprendería alguna otra forma discriminatoria de clasificar a los candidatos y terminó el proyecto.
6. Target Analytics violó la privacidad
En 2012, un proyecto de análisis del minorista Target mostró cuánto pueden aprender las empresas sobre los clientes a partir de sus datos.
Según el New York Times, en 2002 el departamento de marketing de Target comenzó a preguntarse cómo podía determinar si las clientas estaban embarazadas.
Esa línea de investigación condujo a un proyecto de análisis predictivo que llevaría al minorista a revelar inadvertidamente a la familia de una adolescente que estaba embarazada.
Eso, a su vez, llevaría a todo tipo de artículos y blogs de marketing citando el incidente como parte de un consejo para evitar el “factor espeluznante” en la Inteligencia Artificial.
El departamento de marketing de Target quería identificar a las personas embarazadas porque hay ciertos períodos en la vida, el embarazo entre ellos, en los que es más probable que las personas cambien radicalmente sus hábitos de compra.
Si Target pudiera llegar a los clientes en ese período, podría, por ejemplo, cultivar nuevos comportamientos en esos clientes, haciendo que recurrieran a Target para comprar alimentos, ropa u otros bienes.
Como todos los demás grandes minoristas, Target había estado recopilando datos sobre sus clientes a través de códigos de comprador, tarjetas de crédito, encuestas y más.
Combinó esos datos con datos demográficos y datos de terceros que compró.
Al analizar todos esos datos, el equipo de análisis de Target pudo determinar que Target vendía alrededor de 25 productos que podían analizarse juntos para generar una puntuación de “predicción de embarazo”.
El departamento de marketing podría dirigirse a los clientes de alta puntuación con cupones y mensajes de marketing.
Investigaciones adicionales revelarían que estudiar el estado reproductivo de los clientes podría resultar escalofriante para algunos de esos clientes.
Según el Times, la compañía no retrocedió en su marketing dirigido, pero comenzó a mezclar anuncios de cosas que sabían que las mujeres embarazadas no comprarían, incluidos anuncios de cortadoras de césped junto a anuncios de pañales, para hacer que la combinación de anuncios pareciera aleatoria para el cliente.