Un algoritmo que 'lee' el movimiento de las manos abre la puerta a que los smartphones puedan traducir el lenguaje de signos

Varias compañías, como Kintrans o Signall, han intentado en los últimos años desarrollar software capaz de interpretar el lenguaje de signos, permitiendo así a sus usuarios comunicarse fácilmente con cualquier persona. Pero lo cierto es que no han tenido gran éxito hasta ahora.

Sin embargo, un nuevo algoritmo desarrollado por los Google AI Labs, podría ser la clave para materializar al fin un sistema usable de traducción simultánea entre personas sordas y oyentes. Y bastaría, para ello, con usar un smartphone.

Este nuevo algoritmo es capaz de seguir el movimiento de las manos del usuario una vez que ha tenido la ocasión de mapearlas enfoncándolas con la cámara de su móvil. "Nuestra solución utiliza aprendizaje automático para calcular los 21 puntos clave en 3D de una mano dentro de un fotograma de vídeo".

En Xataka

El reto de decir "ay que me LOL" en la lengua de signos

La 'lectura de manos' es más problemática de lo que parece

Pero este aspecto del algoritmo no ha sido fácil de desarrollar: los diferentes tamaños de cada mano, la velocidad de sus movimientos y el hecho de que, durante la conversación, unos dedos puedan obstruir la visión de otros... todos estos aspectos han constituido interesantes retos para los investigadores.

Para reducir los requerimientos de hardware del algoritmo, apostaron por reducir la cantidad de datos que el algoritmo necesitaba analizar, para que así el tiempo de respuesta fuera menor. Así, abandonaron la idea de detectar la posición y el tamaño de toda la mano como conjunto, y empezaron por detectar la palma (la parte más distintiva y regular de la misma).

A continuación, el sistema detecta los cinco elementos que brotan de la misma (los dedos). Para lograr todo esto, hicieron que la IA analizara 30.000 imágenes (cada una con diferentes poses y condiciones de iluminación) y aprendiera de todas ellas, aunque eso requirió que un equipo de humanos etiquetara manualmente los 21 puntos clave en cada una de esas imágenes.

Ahora, es capaz de reconocer el tamaño y ángulos de las palmas de las manos,** asignándoles coordenadas en base a la posición estimada de los dedos y nudillos**. El algoritmo también permite calcular la profundidad de los elementos de la imagen, indicada en la siguiente imagen mediante una en escala de grises:

En su blog corporativo, los investigadores de Google AI Labs explican que la novedad de su propuesta reside en que rompe con el enfoque hasta ahora vigente, basado en potentes entornos de escritorio, logrando un rendimiento en tiempo real pese a funcionar en teléfonos móviles.

Desde Google afirman que seguirán trabajando en mejorar su precisión y anuncian la disponibilidad del código fuente del algoritmo para otros investigadores que quieran consultarlo.

Vía | TechCrunch

Imagen | Google AI Labs

La 'lectura de manos' es más problemática de lo que parece

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios