Lara, el proyecto que da voz a quienes apenas pueden hablar: tres institutos alicantinos lideran esta iniciativa con IA

El proyecto Lara busca hacer comprensibles las frases de quienes tienen patologías que les impiden hablar con claridad. Ya tienen una demo exitosa y van a por más

Tres institutos de Elche y Alicante lideran el proyecto Lara, que busca facilitar la comunicación a quienes tienen problemas para hablar. Lo hacen mediante una aplicación que transcribe y pronuncia sus palabras en tiempo real.

Lo que suena como una frase ininteligible se convierte en una voz clara que les permite expresarse.

Por qué es importante. Muchas personas con parálisis cerebral, párkinson, disfasia, afasia por ictus u otras condiciones tienen grandes dificultades para comunicarse de forma oral, lo que genera frustración y exclusión social. Para una empresa es difícil rentabilizar desarrollos de soluciones para este colectivo.

"Lara es un lugar donde comunicarse es un derecho, no un privilegio", explica Aitor Medrano, coordinador del Proyecto de Investigación Aplicada en los ciclos de FP.

El origen. La idea surgió en el IES Severo Ochoa de Elche, donde Medrano es docente. "Teníamos una alumna que venía siempre a clase con su padre, porque nadie la entendía salvo él. Nuestro razonamiento era: si el padre la entiende, una IA la tiene que entender. Es como un aprendizaje humano".

Así nació este proyecto colaborativo que implica a 150 alumnos y docentes de tres centros:

Curso de Especialización en Inteligencia Artificial y Big Data del IES Severo Ochoa (Elche)
Ciclo Superior de Mediación Comunicativa del IES Victoria Kent (Elche)
Ciclo Medio de Atención a Personas en Situación de Dependencia del IES Gran Vía (Alicante)

Todo el alumnado involucrado en el proyecto Lara, la semana pasada en el Centro de Congresos de Elche. Imagen cedida.

Cómo funciona. Los estudiantes de los ciclos sanitarios y sociales contactan con usuarios con problemas del habla y graban cientos de audios con sus voces siguiendo un "sílabus", un corpus de frases fonéticamente balanceadas. "Ellos nos darían las voces y nosotros el conocimiento tecnológico", resume Medrano. Esos audios se alojan en una base de datos MongoDB y un bucket S3 de AWS.

Con esos audios, los alumnos del curso de IA entrenan modelos capaces de "aprender" a entender esas voces alteradas usando la arquitectura Whisper de OpenAI. Lo hacen en una GPU NVIDIA 4090. Un modelo personalizado para cada usuario funciona muy bien, pero el objetivo es lograr modelos genéricos por patología. Y en el futuro, un único modelo general.

La demo en directo. La semana pasada los alumnos hicieron una demostración en el Centro de Congresos de Elche. Allí se vio materializado el esfuerzo de estos dos cursos, ya que dos usuarias de esta aplicación la usaron ante los asistentes. La aplicación permite al usuario grabar su voz, que se transcribe a texto y se traduce a una voz sintética clara.

Raquel, haciendo un enorme esfuerzo muscular para poder articular la frase, pronunció "Me gusta silbar cuando llueve". Era muy complicado para cualquiera poco acostumbrado a escucharla poder entenderla, pero el sistema la detectó perfectamente.

Trabajo en progreso. El gran reto es recopilar suficientes audios para entrenar los algoritmos. En el primer curso del proyecto, el 22/23, solo tenían cuatro usuarios que les dieron unos 700 audios. Hoy son 75 usuarios y más de 10.000 grabaciones, pero hacen falta más.

Gracias a la colaboración con una decena de asociaciones están constituyendo un dataset único. "Ahora queremos agrupar bien a los usuarios por patologías, centrándonos en tres, aunque dependerá de la cantidad de usuarios que tengamos y de qué patología", explica Medrano.

Otras tareas pendientes: aplicar técnicas de aumento de datos, para generar versiones más rápidas o más lentas de cada audio, o con tonalidad más grave y más aguda, y probar algoritmos avanzados en la nube.

En Xataka

La evolución del código QR es española: así son las etiquetas de colores en el transporte público que pueden leerse a 15 metros

El futuro. Los responsables del PIA sueñan con que alguna empresa adopte su solución y la convierta en un producto real. "Esto no es un bien personal", explica Aitor. "A mí me encantaría que el día de mañana una empresa coja Lara y lo desarrolle de verdad, y sea un producto útil y que funcione bien".

Otras posibilidades que contempla es integrarlo como skill en Alexa o adaptar el modelo a una aplicación que cada usuario se pueda instalar. Pero mantener los servidores y el desarrollo tiene un coste que un centro educativo no puede asumir indefinidamente.

La Conselleria d'Educació les subvencionó con 15.000 euros, de donde ha salido el hosting, eventos y otras necesidades. Pero se acaban.
Aspiran a extender el proyecto a nivel nacional y tienen un acuerdo con institutos de Sevilla y Mérida.
El acento puede ser importante. "Veremos si un modelo de ictus andaluz funciona como un modelo de ictus valenciano, por ejemplo", añade Aitor.

De momento han conseguido hasta galardones, como el Acción Docente 10 al mejor proyecto de innovación educativa. Seguro que llegarán más.

En Xataka | 18 meses descifrando los ojos de Dulce

Imagen destacada | IES Severo Ochoa de Elche