El gran salto dado por la inteligencia artificial a la hora de enfrentarse a humanos en partidas de juegos de mesa radica en haber pasado de ser depositaria de miles de heurísticas diseñadas por humanos (el caso de DeepBlue) a ser capaz de aprender autónomamente, tras jugar miles o millones de partidas contra sí misma (por ejemplo, AlphaZero).
Sin embargo, por notable que haya sido esta evolución, la IA todavía se 'atasca' cuando el juego en el que debe participar se asemeja a la vida a la vida real (múltiples jugadores, información oculta, combinación de recompensas a corto y largo plazo, etc), pues provoca que sea extremadamente complejo calcular la 'política óptima'.
Nosotros aprendemos en sociedad, y las IAs también deberían
Por ello, los científicos están explorando estrategias para ayudar a las máquinas a superar estos obstáculos. Una línea de trabajo prometedora consiste en basarse en cómo aprendemos los humanos: el aprendizaje por refuerzo parece estar basado en cómo aprende la mente de un individuo... pero ningún individuo aprende en soledad.
Todo aprendizaje se basa en relacionarse con otros, sea mediante la interacción en tiempo real, sea mediante la lectura de textos ajenos. Así que los investigadores del Laboratorio de IA MIT-IBM Watson han decidido afrontar este problema explorando una solución basada en un modelo de aprendizaje social.
Miao Liu, uno de los miembros del equipo, explica la base de su modelo:
"Las máquinas carecen del conocimiento procedente del sentido común, que nosotros desarrollamos cuando somos niños. Por eso necesitan mirar millones de frames de vídeo y pasar mucho tiempo computando para jugar bien un juego.
E incluso entonces, carecen de formas eficientes de transferir sus conocimientos al equipo, o de generalizar sus habilidades a la hora de afrontar un nuevo juego.
Si pudiéramos entrenar robots para que aprendieran de otros y fueran capaces de generalizar su aprendizaje a otras tareas, podríamos empezar a coordinar mejor sus interacciones entre ellos y con los humanos".
Una idea con potencial
Y los resultados, por ahora, han sido prometedores: tras situar a un par de bots en un sala virtual por la que tenían que aprender a navegar hasta ser capaces de tocar simultáneamente paredes opuestas de la misma, se comprobó que el tiempo necesario para finalizar con éxito su aprendizaje se reducía en un 50% o más cuando ambos agentes podían comunicarse entre sí para aprovechar los conocimientos del compañero.
El algoritmo enseña a los agentes cuándo pedir ayuda y cómo adaptar los consejos a lo hayan aprendido hasta ese momento. La clave reside en que ninguno de los agentes ocupa la función de experto: ambos pueden actuar como 'estudiante' o como 'maestro', según lo requiera la situación. Y, ¿cómo saben si lo requiere?
En una primera fase, ambos agentes deciden con cada paso respectivo si pedir o dar consejos basándose en su confianza de que el próximo paso que den los acercará a su objetivo.
En la segunda fase, se actualizan las políticas de asesoramiento de cada agente: con cada actualización, el maestro mejora en la tarea dar el consejo correcto en el momento adecuado.
En palabras de Matthew E. Taylor, responsable de investigación en IA del Banco Real de Canadá,
"La idea de proporcionar medios para mejorar el aprendizaje del estudiante, en lugar de simplemente decirle qué hacer, tiene mucho potencial.
Si bien el 'paper' se enfoca en escenarios relativamente simples, creo que el marco podría ampliarse para ser útil en videojuegos multijugador (como DOTA 2), o en fútbol robótico".
Ver 1 comentarios