La empresa Microsoft permitirá que desarrolladores tengan acceso a herramientas avanzadas de reconocimiento facial, de voz, etc.
El Proyecto Oxford de Microsoft, una suite de herramientas de desarrollo basados en la máquina de aprendizaje de la empresa y la investigación en inteligencia artificial tendrá nuevos servicios, según anunció la compañía en una conferencia en Londres.
Los desarrolladores ahora podrán aprovechar un servicio de detección de emociones que mira una foto y enumera una serie de emociones: por cada persona en una imagen (hasta un número determinado), el servicio pesará las probabilidades de que alguien está expresando enojo, felicidad, miedo, sorpresa, asco, tristeza, desprecio o nada en absoluto.
Según el representante del Programa de Gerencia de Microsoft, Ryan Galgon, la compañía construyó el servicio después de ver a que los desarrolladores utilizaban tecnología de detección de rostros existente del Proyecto Oxford en aplicaciones que ejecutan análisis de sentimientos en fotografías.
El nuevo servicio permite diferentes aplicaciones posibles, como la edición de fotos en base a los sentimientos.
No obstante, el servicio – en este punto – sólo puede manejar imágenes estáticas y Galgon dice que Microsoft es mejor en algunos modelos de detección de la emoción (como encontrar la felicidad) que en otros (el desprecio y asco).
En movimiento
En lo que a videos se refiere, a finales de este año el Proyecto Oxford tendrá soporte beta para herramientas de video incluyendo detección de movimiento y estabilización de imagen.
La suite también tendrá herramientas de seguimiento de caras que registra a las personas que se encuentran en cada fotograma de un video y permite a usuarios analizar lo que ocurre.
Microsoft ha puesto un límite al tamaño de los archivos de vídeo que pueden ser procesos en el servicio. Galgon sugiere a los desarrolladores que bajen la resolución de archivos grandes.
Crear y reconocer
En la relativo a voz, Microsoft anunció la creación del Servicio Inteligente de Reconocimiento Personalizado (CRIS) , que permite a los desarrolladores crear modelos de reconocimiento de voz para circunstancias específicas. Para obtener resultados más personalizados, los desarrolladores tienen que alimentar al servicio con un conjunto de archivos de audio, junto con transcripciones del discurso para construir el modelo de voz.
También se ha adelantado que pronto habrá una próxima función de reconocimiento del orador en el conjunto de herramientas de habla del Proyecto Oxford que permita establecer quién está hablando en el momento, cosa que no es posible actualmente. Lo que si es posible es que los desarrolladores tomen un breve clip de alguien hablando y determinen si la persona que habla coincide con la que el sistema ha establecido que puede reconocer.
Al respecto Galgon sugiere que este es el tipo de cosa que podrían derivar en una forma ligera de autenticación: no es tan seguro como una contraseña o huella digital pero es útil para decir si alguien es quien dice ser.
El futuro de Azure
Todo el procesamiento de estos servicios se maneja en la nube de Microsoft , lo que significa que las aplicaciones que utilizan las API de Proyecto Oxford tienen que estar conectados a Internet.
La liberación de las herramientas para el público podría ayudar a atraer a los usuarios de la plataforma de nube Azure, la cual cuenta con de tres servicios del Proyecto Oxford como parte del Cortana Analytics Suite.
Los desarrolladores pueden probar todas las funciones de forma gratuita y hablar con Microsoft si necesitan usar más de lo que está disponible en la capa de uso gratuito del Proyecto Oxford.