Hace un año Microsoft hizo la demostración de una tecnología bastante importante y que con un poco más de trabajo puede solucionar fácilmente la barrera de comunicación que existe actualmente entre distintos idiomas. En ese momento, mostró una herramienta desarrollada por ellos que permite transformar la voz de una persona en un lenguaje determinado, y traducirla a otro lenguaje con el mismo tono de voz. Era una herramienta sorprendente, por comprender todas las etapas de las tecnologías del habla: reconocimiento de habla y síntesis de lenguaje.
Si bien esto estaba enfocado en el audio, hay que tener en cuenta que, en ciertos casos, el habla comprende también un componente visual: es el caso de los lenguajes de señas, para gente con deficiencias auditivas. Pero, para esto también hay una solución, utilizando Kinect.
El área de Research de Microsoft están investigando la posibilidad de utilizar Kinect para poder traducir en tiempo real lenguaje de señas a lenguaje hablado, y viceversa. Intentaron con “guantes digitales” y webcams, pero el que mejor funcionamiento tuvo es el Kinect (y bueno, es Microsoft 😀 ) La idea es utilizar Machine Learning para reconocer los patrones visuales de los distintos signos, saber cuál es su significado y expresarlo en lenguaje escrito y hablado; por otro lado, también se busca traducir el lenguaje hablado en signos. El video muestra todo esto muy claramente:
Por más que uno vea una demostración tan buena como la que da el video, es un sistema al que todavía le falta. Por las técnicas de reconocimiento utilizadas, todavía se necesitan 5 personas que realicen los gestos para poder “entender” cada palabra, y actualmente sólo se realizó ese proceso para 300 de las palabras del lenguaje de señas chino, de las 4.000 disponibles. Es decir, todavía falta un largo trecho. Pero si tenemos en cuenta que hay 20 millones de personas con dificultades auditivas en China, y unas 360 millones en el mundo… claramente es un esfuerzo que vale la pena :).