Lee Sedol logra vencer a AlphaGo y el mundo se pregunta si las máquinas pueden errar

Ayer muchos respiramos aliviados tras comprobar que al menos de momento las máquinas no son del todo imbatibles. Tras perder las tres primeras partidas de las cinco programadas -y por tanto, el encuentro global- Lee Sedol se recompuso y pudo vencer a AlphaGo, el programa desarrollado por Google DeepMind que ha maravillado al mundo por su capacidad para lograr jugar de una forma casi perfecta a un juego tan singular como el Go, algo que parecía improbable en al menos otra década.

La victoria de Sedol fue toda una sorpresa tras los tres primeros encuentros, pero lo que más se comenta es cómo AlphaGo pareció equivocarse en un momento cumbre de la partida. El ahora célebre movimiento 79 de AlphaGo en aquella partida ha sido considerado como un error que no es propio de una máquina, sino más bien de un jugador principiante de Go. ¿Qué ha podido ocurrir?

La máquina (aún) no es perfecta

En GoGameGuru analizaban esa partida y explicaban como Sedol había modificado de forma radical su forma de jugar contra AlphaGo frente a las partidas anteriores. En el movimiento 78 ejecutó lo que se conoce como un "tesuji",un movimiento especialmente inteligente que revelaba una táctica que por alguna razón AlphaGo no entendió y a la que respondió de forma extraña .

De hecho, explicaban en ese análisis, el tesuji de Sedol no era un movimiento normal y corriente, sino un movimiento "exquisito" que ni siguiera la mayoría de jugadores profesionales hubieran visto durante la partida.

Lo curioso de la situación es que AlphaGo no cometió solo ese error: tras fallar en su respuesta siguió cometiendo errores que parecían derivados de ese primer fallo, haciendo que su situación fuese empeorando y la de Sedol, que aprovechaba gradualmente esa ventaja, acabara ganando la partida.

¿Qué falló en AlphaGo?

Los propios responsables de DeepMind no podían explicar qué podía haber pasado y confesaron que tendrían que esperar a volver al Reino Unido tras la partida para volver a analizar el problema en detalle. Según los expertos que analizaban la partida, algo falló en la parte de los algoritmos del Método de Montecarlo de AlphaGo.

Este método forma parte de las técnicas de aprendizaje por refuerzo, una parte del aprendizaje automático en la que se maximiza la "recompensa" -en este caso, ganar la partida-. En este tipo de aprendizaje, como explica la Wikipedia, "el aprendizaje por refuerzo es especialmente adecuado para los problemas que incluyen un razonamiento a largo plazo frente a uno a corto plazo".

En HackerNews también debatían sobre el problema que tuvo AlphaGo y uno de los que allí comentaba explicaba que este "es un problema clásico de los agentes entrenados con aprendizaje por refuerzo: tras cometer un error inicial -tanto si es un accidente como debido al ruido, etc- el agente llega a un estado con el que no está familiarizado, así que comete otro error, cavando un hoyo aún más profundo: los errores continúan sumándose unos a otros". Aún así, admitía este usuario, también pudo pasar que AlphaGo simplemente decidiera arriesgar mucho más para tratar de recuperar el terreno perdido.

Pequeñas victorias, grandes derrotas

En esa parte de su inteligencia artificial es posible descartar los movimientos más eficientes, y ese objetivo de estos algoritmos -los de maximizar la probabilidad de ganar- acaban llevando a extremos: o la máquina gana por poco, o pierde de forma desastrosa.

"Cuando el ordenador va por detrás, asume riesgos al intentar igualar la partida, en algunos casos con jugadas muy arriesgadas que hacen que sea más fácil eliminarlos de la partida", explicaban estos expertos, que señalaban como la forma de jugar de AlphaGo hace que los movimientos que llevan a la victoria suman poco a poco, pero si una derrota está próxima se toman riesgos que pueden hacer que esta sea especialmente importante.

Queda por ver qué es lo que ocurrirá en la quinta y última partida que se celebrará mañana en Seúl, pero los analistas creen que será difícil que una situación de este tipo se repita porque movimientos como el tesuji de Sedol son raras excepciones. Los interesados podéis asistir a la emisión en directo de la partida en YouTube en la madrugada del lunes al martes a las 04:30.

En Xataka | Google tiene la tecnología para que la máquina por fin supere al hombre en el Go