Microsoft trabaja con IA para que personas ciegas puedan encontrar rostros familiares

Microsoft trabaja con IA para que personas ciegas puedan encontrar rostros familiares: Theo, un niño de 12 años que es ciego, está sentado en una mesa en una cocina llena de gente en un día gris y lluvioso a mediados de diciembre. Una diadema que alberga cámaras, un sensor de profundidad y altavoces rodea su cabello color castaño arenoso. Gira la cabeza a la izquierda y a la derecha hasta que la cámara al frente de la diadema apuntó a la nariz de una persona en el otro lado de un mostrador.

Microsoft trabaja con IA para que personas ciegas puedan encontrar rostros familiares

Theo escucha un sonido como de golpe seguido por el nombre “Martin” a través de los altavoces de la diadema, los cuales están posicionados sobre sus oídos.

Maestría en Responsabilidad Social (presencial y en línea)

“Me tomó como cinco segundos encontrarte, Martin”, comenta Theo, su cabeza y cuerpo fijos en la dirección de Martin Grayson, ingeniero de investigación de desarrollo de Microsoft con el laboratorio de investigación en Cambridge en Microsoft. Grayson se encuentra junto a un cofre negro que le llega a la rodilla que contiene el hardware de cómputo requerido para correr los modelos de aprendizaje automático que impulsan el sistema prototipo que Theo utilizó para reconocerlo.

Elin, la madre de Theo, que está contra la pared en el lado opuesto de Theo, dice, “Me encantó cómo giraste para encontrarlo. Es muy bonito”.

Conforme Theo comienza a girar para quedar frente a su madre, los altavoces emiten otro sonido de golpe y el nombre “Tim”.

“Tim, ahí estás”, comenta Theo con deleite mientras su mirada aterriza en Tim Regan, otro ingeniero de investigación de desarrollo de software en el laboratorio, que tomó a Theo para enseñarle habilidades avanzadas de código computacional. Theo y su madre estuvieron en la casa de Regan para una lección de codificación bimestral. Se conocieron mientras trabajaban en un proyecto de investigación que llevó al desarrollo de Code Jumper, un lenguaje físico de programación que es inclusivo para niños de todos los rangos de visión.

Theo es ahora uno de los varios miembros de la comunidad de ceguera y baja visión que trabajan con Regan, Grayson, la investigadora Cecily Morrison y su equipo en Project Tokyo, un esfuerzo de investigación multifacético para crear tecnología inteligente de agentes personales que utiliza inteligencia artificial para extender las capacidades existentes de las personas.

Para Theo, esto significa herramientas para reconocer quién está a su alrededor.

“Es tan emocionante poder saber dónde está la gente en mi entorno”, comentó Theo. “No sólo quién decide hablar, sino todas las personas que están en silencio que puedes ver por su rostro, pero que yo no puedo hacerlo”.

Pero en última instancia, acotó Morrison, Project Tokyo es un esfuerzo de investigación con una meta a largo plazo de demostrar cómo construir agentes personales inteligentes que extiendan las capacidades de los usuarios. En lugar de construir sistemas integrales que puedan realizar tareas específicas, ella ve el futuro de IA como un conjunto de recursos que las personas utilizan de la manera que consideren adecuada.

“De pronto, ya no tenemos que decir, ‘Oye, tú eres ciego y acabo de hacer esto accesible para ti’. Decimos, ‘Oye, tú eres tú y yo acabo de construir un sistema que funciona para ti’”, comentó. “No necesito saber nada sobre ti. No necesito una etiqueta en ti. Puedo hacer algo que es correcto para ti porque tengo un sistema que puedes tomar y adaptarlo para ti”.

Paralímpicos en Brasil

Project Tokyo nació a partir de un desafío, a inicios de 2016, de líderes senior en Microsoft para crear sistemas de IA que pudieran ir más allá de completar tareas como obtener puntuaciones deportivas y pronósticos del clima o identificar objetos. Morrison dijo que crear herramientas para las personas ciegas o con baja visión era un ajuste natural para el proyecto, porque las personas con discapacidades a menudo son los primeros en adoptar nuevas tecnologías.

“No se trata de decir, ‘Vamos a construir algo para la gente ciega’”, comentó Morrison. “Trabajamos con gente ciega para que nos ayuden a imaginar el futuro, y ese futuro es sobre nuevas experiencias con IA”.

Morrison y su colega Ed Cutrell, un investigador principal en el laboratorio de investigación de Microsoft en Redmond, Washington, fueron aprovechados para liderar el proyecto. Ambos tienen experiencia en diseñar tecnologías con personas que son ciegas o con baja visión y decidieron comenzar con intentar entender cómo un agente tecnológico podría incrementar, o extender, las capacidades de esos usuarios.

Para comenzar, siguieron a un grupo de atletas y espectadores con diferentes niveles de visión en un viaje desde Reino Unido para los Juegos Paralímpicos 2016 en Río de Janeiro, Brasil, para observar cómo interactuaban con otras personas mientras recorrían aeropuertos, asistían a los lugares de las competencias e iban a conocer lugares famosos, entre otras actividades. Un aprendizaje clave, comentó Cutrell, fue cómo un entendimiento enriquecido del contexto social podía ayudar a las personas ciegas o con baja visión a darle sentido a su entorno.

“Nosotros, como seres humanos, tenemos este sentido muy, muy matizado y elaborado del entendimiento social de cómo interactuar con las personas – tener una idea de quién está en la habitación, qué hacen, cuál es su relación conmigo, cómo entiendo si son relevantes para mí o no”, mencionó. “Y para la gente ciega, muchas de esas señales que nosotros damos por sentadas, tan solo desaparecen”.

Este entendimiento impulse una serie de talleres con la comunidad de ceguera y baja visión que estaban enfocados en tecnologías potenciales que pudieran brindar esa experiencia. Peter Bosher, un ingeniero de audio de unos 50 años ha sido ciego la mayor parte de su vida y trabajó con el equipo de Project Tokyo, dijo que el concepto de una tecnología que proporcionaba información sobre la gente alrededor suyo resonó de inmediato.

“Cada vez que estoy en una situación con más de dos o tres personas, en especial si no conozco a algunos de ellos, se vuelve, de manera exponencial, más difícil de tratar porque la gente usa más y más contacto visual y lenguaje corporal para indiciar que quieren hablar con tal o cual persona, que quieren hablar ahora”, mencionó. “Es en verdad muy difícil para una persona ciega”.

Un HoloLens modificado

Una vez que los investigadores de Project Tokyo entendieron el tipo de experiencia de IA que querían crear, se pusieron a construir la tecnología habilitadora. Comenzaron con el Microsoft HoloLens original, una diadema de realidad mixta que proyecta hologramas en el mundo real que los usuarios pueden manipular.

“HoloLens nos da mucho de lo que necesitamos para construir un agente de IA en tiempo real que puede comunicar el entorno social”, comentó Grayson durante una demostración de la tecnología en el laboratorio de investigación de Microsoft en Cambridge.

Por ejemplo, el dispositivo tiene un conjunto de cámaras de escala de grises que brindan una visión casi de 180 grados del entorno y una cámara a color de alta resolución para reconocimiento facial de alta precisión. Además, los altavoces sobre las orejas del usuario permiten audio espacial – la creación de sonidos que parecen venir de ubicaciones específicas alrededor del usuario.

Luego, los expertos en aprendizaje automático en el equipo de Project Tokyo desarrollaron algoritmos de visión computacional que brindan niveles variantes de información sobre quién está dónde en el entorno del usuario. El modelo corre sobre unidades de procesamiento gráfico, conocidas como GPU por sus siglas en inglés, que están alojadas en la pechera negra que Grayson llevó a la casa de Regan para las pruebas de usuario con Theo.

Un modelo detecta, por ejemplo, la pose de la gente en el entorno, lo que brinda un sentido de dónde y qué tan lejos están del usuario. Otro analiza la fuente de fotos de la cámara de alta resolución para reconocer a la gente y determinar si han aceptado que sus nombres sean conocidos por el sistema. Toda esta información se transmite al usuario a través de señales de audio.

Por ejemplo, si el dispositivo detecta a una persona a un metro de distancia en el lado izquierdo del usuario, el sistema reproducirá un clic que suena como si viniera de un metro a la izquierda. Si el sistema reconoce el rostro de la persona, reproducirá un sonido parecido a un golpe, y si esa persona también es conocida por el sistema, anunciará su nombre.

Cuando el usuario sólo escucha un clic pero quiere saber quién es la persona, una segunda capa de sonido que se asemeja a cuando se estira una banda elástica guía la mirada del usuario hacia el rostro de la persona. Cuando el lente de la cámara central se conecta con la nariz de la persona, el usuario escucha un clic agudo, y si la persona es conocida por el sistema, escuchará su nombre.

“En particular, me gusta que te brinda el ángulo de mirada porque nunca estoy seguro cuál es el ángulo sensato en el que debe estar tu cabeza”, comentó Bosher, que trabajó con el equipo de Project Tokyo en la experiencia de audio al inicio del proceso de diseño y regresó al laboratorio de Cambridge para discutir su experiencia y revisar la iteración más reciente. “Sería una gran herramienta para aprender lenguaje corporal”.

Prototipos con adultos

Conforme el equipo de Project Tokyo ha desarrollado y evolucionado la tecnología, de manera rutinaria los investigadores invitan a adultos ciegos o con baja visión para que prueben el sistema y ofrezcan sus comentarios. Para facilitar una interacción social más directa, por ejemplo, el equipo removió los lentes del frente del HoloLens.

Varios usuarios expresaron un deseo de recibir la información recolectada por el sistema de manera discreta, sin tener que girar sus cabezas de manera constante, algo que es incómodo a nivel social. Los comentarios llevaron al equipo de Project Tokyo a trabajar en características que ayudaran a los usuarios a aprender de manera rápida quién está a su alrededor, por ejemplo, a través de pedir una visión general y obtener una lectura espacial de todos los nombres de las personas que han dado su permiso de ser reconocidas por el sistema.

Otra característica experimental alerta al usuario con una campana espacial cuando alguien los mira, porque las personas con visión típica a menudo establecen contacto visual para iniciar una conversación. Sin embargo, a diferencia del sonido tipo golpe, la campana no es seguida por un nombre.

“Ya utilizamos el nombre cuando ves a alguien”, explicó Grayson a Emily, de 20 años, que ha probado el sistema y que tiene baja visión, y que visitó el laboratorio en Cambridge para conocer las características más recientes. “Pero también, al no dar el nombre, podría dirigir tu atención para que voltees hacia alguien que trata de llamar tu atención. Y al voltear hacia ellos, puedes saber su nombre”.

“Estoy de acuerdo por completo con eso. Así es como reacciona la gente con vista. Ellos capturan a alguien en la esquina de su ojo, o tienes esa sensación y dices, ‘Cecily’”, comentó Emily.

El HoloLens modificado que los investigadores mostraron a Emily también incluía una cinta LED colocada por encima de la banda de cámaras. Una luz blanca rastrea a la persona más cerca del usuario y se vuelve verde cuando la persona ha sido identificada por el usuario. La característica permite saber a los socios de comunicación o transeúntes que han sido vistos, lo que hace más natural iniciar una conversación.

La cinta LED también brinda a las personas una oportunidad de moverse fuera del campo de visión del dispositivo y no ser vistos, si así lo eligen. “Cuando sabes que estás a punto de ser visto, también puedes decidir no serlo”, aclaró Morrison. “Si sabes cuándo serás visto, sabes cuándo no eres visto”.

Una herramienta para enseñar habilidades de interacción social

Conforme continúa la investigación técnica, Project Tokyo explora una avenida revelada en el proceso de investigación: utilizar la tecnología para ayudar a los niños que son ciegos o con baja visión a desarrollar habilidades de interacción social.

Dos tercios de los niños que son ciegos o con baja visión exhiben comportamientos sociales que son consistentes con los niños que se encuentran en el espectro del autismo, de acuerdo con investigaciones académicas. Por ejemplo, muchos niños que son ciegos o con baja visión parecen desenganchados de los compañeros de conversación, a menudo reposan su cabeza en una mesa con una oreja expuesta.

Morrison y Cutrell pivotaron Project Tokyo para explorar si una versión reducida del sistema podría ser utilizada para ayudar a los niños que son ciegos o con baja visión a entender cómo pueden utilizar sus cuerpos para iniciar y mantener interacciones con la gente.

Debido a que los investigadores de Microsoft ya tenían una relación con Theo, lo reclutaron para que ayudara a adaptar el sistema para que funcionara con niños, como tener en cuenta la tendencia de los niños de sentarse juntos y, al mismo tiempo, rara vez estar quietos.

“Cuando anunciaba los nombres de las personas, trataba de anunciar dos nombres a la vez y pedí que eso se cambiara porque, para ser sincero, era muy difícil escuchar los nombres de todos”, recordó Theo.

Los investigadores también exploraron cómo Theo utilizaba el sistema. Por ejemplo, durante una cena familiar comenzó primero de manera sutil, y luego varias veces, a mover su cabeza de lado a lado para forzar al sistema a leer los nombres de la gente que hablaba.

“Creemos que usaba eso para apoyar su atención espacial hacia la persona al refrescar su memoria funcional sobre dónde estaban”, comentó Morrison. “Eso es algo que nunca hubiéramos predicho, pero una estrategia muy poderosa para ayudarle a mantener su atención, y si él puede mantener su atención, puede mantener un tema de conversación”.

Otros usos de la tecnología estaban más alineados con la teoría de los investigadores de que podría ayudarle a construir habilidades para interactuar a nivel social en un mundo dominado por la gente que puede ver.

Por ejemplo, como otros niños que son ciegos o con baja visión, Theo ponía su cabeza en la mesa durante situaciones sociales, con una oreja atenta al mundo. Los investigadores jugaron una serie de juegos con Theo, diseñados para resaltar el poder social que podría llegar cuando utilizaba su cuerpo y su cabeza para entablar una conversación con personas que pueden ver.

En un juego en el laboratorio, los investigadores tenían un problema grupal a resolver. Theo sabía la respuesta. Los investigadores sólo sabían el tema y sólo podían hablar cuando Theo los mirara. Cuando Theo miraba a otro lado, ellos tenían que dejar de hablar.

“De pronto, él se dio cuenta que podía llevar una conversación”, comentó Morrison. “Entendió el poder de ser capaz de ver a alguien, el poder que le dio en una conversación y con esto, fue habilitado con un conjunto completo y nuevo de capacidades sociales que antes no había podido conseguir”.

Hoy en día, Theo rara vez habla con su cabeza sobre la mesa. Ya sea que utilice o no el HoloLens modificado, él gira su cuerpo para estar de frente a la persona con la que quiere entablar una conversación. Se desconoce si el cambio seguirá a largo plazo, ni los investigadores están seguros si otros niños que son ciegos o con baja visión responderán de manera similar.

“Por lo que vemos con Theo, tenemos una buena sensación en esto, porque lo hemos visto con él, pero es en sólo un caso. Y quién sabe si eso habría pasado de todos modos”, comentó Cutrell. “Es por eso que hemos comenzado a girar a esta siguiente fase, en la que observaremos a muchos más niños y también a un rango de edades mucho más amplio”.

El futuro de Project Tokyo

El esfuerzo más amplio de investigación de Project Tokyo continúa, incluidas nuevas direcciones en aprendizaje automático que permiten a los usuarios adaptar el sistema a sus preferencias personales. Sebastian Tschiatchek, investigador de aprendizaje automático en el laboratorio de Cambridge, trabaja en características que permiten a los usuarios mostrar al sistema el tipo y cantidad de información que quieren escuchar.

El desarrollo de la personalización requiere que Tschiatchek tome un enfoque poco convencional para el aprendizaje automático.

“Lo que nos gusta hacer es formalizar un problema en alguna forma matemática”, comentó. “Esto no lo puedes hacer tan fácil en este problema. Mucho del desarrollo viene de intentar cosas, tener esta interacción con la gente, ver qué les gusta, qué no, y mejorar los algoritmos”.

El deseo de personalización explicó, existe porque la gente que es ciega o con baja visión tiene diferentes niveles de visión y por lo tanto, diferentes necesidades de información. Aún más, los usuarios del sistema se frustran cuando este les brinda información que ya sabía.

“Para conseguir la visión de Project Tokyo, tienes que combinar tantas cosas que no se resuelven solas”, comentó Tschiatchek.

En última instancia, Project Tokyo se trata de demostrar cómo construir agentes personales inteligentes que extienden las capacidades de todos los usuarios. Para llegar ahí, Morrison, Cutrell y sus colegas van a continuar con su trabajo con personas que son ciegas o con baja visión, incluidos más niños.

“Lo que vimos con Theo es muy poderoso”, comentó Morrison en su oficina el día después que se probó el sistema en la casa de Regan. “Fue poderoso porque él estaba en control de su mundo en una manera en la que no había estado antes”.

Entre la creciente cohorte de niños para participar en Project Tokyo está Ronan, el hijo de 7 años de Morrison, que es ciego desde el nacimiento.

“Creo que vamos a ver eso con Ronan”, agregó. “Estoy muy emocionada por probarlo”.

Nota del editor: Theo y Emily pidieron que sus apellidos no fueran utilizados en esta historia.

Imagen principal: Theo, a la izquierda, un niño de 12 años que es ciego interactúa con Tim Regan, al centro, y con Martin Grayson, a la derecha, ambos ingenieros de investigación de desarrollo de software de Microsoft, durante unas pruebas de usuario del sistema Project Tokyo. Foto por Jonathan Banks.