La tecnología de reconocimiento automático de voz (ASR) es una herramienta fundamental para los 466 millones de personas sordas o con problemas de audición que hay en el mundo (según datos de la Organización Mundial de la Salud).
Actualmente, muchas personas sordas no pueden participar en eventos como congresos, debates, juicios o asambleas sin ayuda de la labor de un estenotipista, que transcribe lo que los asistentes van diciendo en tiempo real.
Pero eso supone atar la capacidad de los sordos para participar en la esfera pública a la disponibilidad de unos servicios profesionales no siempre baratos ni sencillos de contratar.
Live Transcribe y Sound Amplifier
Motivados por este reto, Google anunció ayer dos nuevas apps destinadas a usuarios de Android con problemas auditivos, ya disponibles para dispositivos Pixel 3 (se instalarán automáticamente en todos ellos a partir de la próxima actualización) y en todos aquellos equipados con Android 9 Pie.
Se podrá hacer uso de ambas desde el menú de compatibilidad de cualquier terminal Android compatible:
La primera, Live Transcribe, transcribe voz a texto en tiempo real y para diferentes idiomas (70, en total, lo que da cobertura a más del 80% de la población mundial). A efectos prácticos, la app permite dotar de subtítulos automáticos (no tan diferentes a los que podemos ver en Youtube mientras visualizamos un vídeo en otro idioma) a la conversación que tiene lugar en torno a nosotros.
La segunda, Sound Amplifier, funciona con auriculares y permite que el audio sea más claro y más fácil de escuchar. Tras haberse en el Google I/O hace ya un año, ya está disponible en Google Play esta app diseñada para filtrar el ruido de fondo sin necesidad de hacer más fuertes el resto de sonido.
¿Qué ha cambiado?
Los antiguos sistemas de transcripción basados en reconocimiento automático de voz consumían gran cantidad de datos y, sobre todo, capacidad de cómputo, lo que los inhabilitaba como herramienta de uso en tiempo real.
Para dar respuesta a estos problemas y garantizar, además, una precisión razonable, Live Transcribe ha apostado por dejar la labor de reconocimiento del habla en la nube (aunque tienen como objetivo que sea posible hacerlo dentro del dispositivo en un futuro); mientras que las conexiones con dicha nube quedan en manos de una red neuronal integrada en el software que sólo se conecta cuando detecta que se está hablando.
"Para hacer que Live Transcribe sea lo más intuitivo posible", explica Sagar Savla, Product Manager de Alphabet Research, dedicaron tiempo a investigar la experiencia de usuario:
"nos asociamos con la Universidad de Gallaudet [y] analizamos varias modalidades diferentes: ordenadores, tabletas, teléfonos inteligentes e incluso pequeños proyectores, probando varias formas de mostrar información auditiva y subtítulos. Al final, decidimos centrarnos en los smartphones debido a la absoluta omnipresencia de estos dispositivos y a su creciente capacidad".
El siguiente paso fue mostrar de manera simple y práctica para el usuario el nivel de confianza de las distintas partes de la transcripción, tal como se puede ver en la siguiente imagen (usando color que van del amarillo -muy confiable- a azul -poco-).
También Sound Amplifier requirió de investigación sobre experiencia del usuario. En la siguiente imagen se puede ver cómo proporciona al usuario información visual sobre nivel de ruido (círculo interior) y volumen de recepción de la voz (círculo exterior).
Esto les permite ajustar la ubicación del teléfono y hacer factible que una persona con problemas de audición pueda seguir una conversación en un espacio lleno de gente hablando:
Ver 0 comentarios