El inglés no nativo en machine learning: cuando los errores mejoran el entendimiento

Hace unas semanas hablábamos de las diferencias de planteamiento de lanzar un chatbot en India a hacerlo en Estados Unidos, siendo en este caso el idioma una barrera clara. Pero hablando de entendernos con las máquinas puede que, incluso hablando ambos el mismo idioma, no lleguemos a un entendimiento.

De hecho es algo que podemos observar ya entre nosotros. En ocasiones ocurre que hay bastantes diferencias en la manera de hablar una misma lengua entre quienes lo hacen de manera nativa y quienes la han aprendido como secundaria (evitando involuntariamente expresiones coloquiales y demás), y justo esto es lo que observaron en el MIT y trataron de solucionar con una base de datos en inglés no nativo.

Humanos: no hay quien os entienda incluso hablando el mismo idioma

Según leemos en MIT News, el equipo de investigadores dirigido por Yevgeni Berzak ha creado la mayor base de datos de frases en inglés no nativo con el fin de mejorar el procesamiento que tienen las máquinas del idioma. La idea vino por el hecho de que se habla más inglés no nativo, algo que ocurre en los idiomas más hablados del mundo pero que en el caso del inglés es bastante llamativo:

Millones de hablantes nativos (azul oscuro) y no nativos (azul claro). (Fte.: Statista)

La tecnología del procesamiento del lenguaje (NLP) se basa en el machine learning o aprendizaje automático, del cual hablamos en detalle hace un tiempo, por medio del cual las máquinas van identificando ciertos patrones dentro de grandes bases de datos. ¿Qué es lo que ocurre con la variabilidad del idioma? Que al ser una base de datos en inglés estándar la máquina no sabe cómo procesar las particularidades del inglés no nativo.

Han recopilado hasta 5.124 frases escritas en ensayos en inglés de estudiantes no nativos

Es decir, aquí se trata de perfeccionar el funcionamiento de la máquina inculcando algo de factor humano, el cual suele ser más bien el de la imperfección. Lo que ha hecho este grupo del MIT ha sido recopilar hasta 5.124 frases escritas en ensayos en inglés de estudiantes no nativos (English as a second lenguaje, ESL), que entre todos aunaban un total de diez lenguas nativas distintas (que en la práctica se hablan por un 40% de la población aproximadamente). De media había un error gramatical en cada una de esas frases, y de esto se tomaron nota en la Universidad de Cambridge (de donde venían los exámenes).

La idea era que, usando el estándar de Universal Dependency (UD) pudiesen establecer relaciones sintácticas entre las expresiones correctas e incorrectas trabajando con gráficos que reflejasen las relaciones sintácticas entre las palabras de las frases. Todo esto anotando cada palabra y categoría gramatical, y añadiendo descripciones detalladas a las partes o palabras de las frases.

Que aprenda la máquina y los humanos

Hubo algunas diferencias de criterio a la hora del tratamiento de los errores, si bien se subsanaron dado que esto es vital para que el sistema aprenda a reconocerlos (no podría hacerlo si se describen o ejemplifican de modo distinto). Estas diferencias de hecho fueron la base para la creación de un software de corrección gramatical más avanzado, de modo que ya no es sólo que la máquina entienda mejor, sino que pueden mejorarse los sistemas de traducción.

Lo que buscan es que los sistemas tengan un entrenamiento más amplio que permita entender mejor las estructuras que en ocasiones se forman en el inglés no nativo, por ejemplo cuando se omite alguna preposición o se sustituyen tiempos verbales, creando además softwares que ayuden a corregir estos fallos gramaticales como decíamos. El resultado del trabajo se presentará en la Conferencia Anual sobre Lingüística Computacional el próximo mes de agosto.

Vía | MIT News
En Xataka | Deep Learning: qué es y por qué va a ser una tecnología clave en el futuro de la inteligencia artificial