El reto es crear el cerebro informático más humano, Siri sólo fue el primer paso del deep learning

Llegó el futuro y era descafeinado. Habíamos imaginado coches voladores, robots humanoides, hidratadores de comida que convertían minipizzas en grandes familiares. Cuestión de espectativas, supongo. Vivimos un mundo mucho más interesante del que soñamos, pero mucho menos espectacular. La sensación era "¿Dónde está mi KITT? ¿Dónde está mi gorrocóptero? ¡Qué me devuelvan el dinero!"

Hasta el 4 de octubre de 2011. Habíamos soñado con el Jarvis (de las películas) y, tras una larga gestación en el seno del SRI, Apple nos presentó a Siri tal y como lo conocemos. Por primera vez, gracias al deep learning podíamos hablar de tú a tu con un ordenador. ¿Es hora de jubilar a Alfred o debemos esperar un poco más?

Siri era distinta: no estaba pensanda para recibir órdenes, sino para hablar con ella

La clave de Siri (y de todos los asistentes que han venido después) fue revolucionar la idea de 'control con voz'. Hasta el momento, nuestra relación se basaba en dar órdenes al ordenador o al móvil.

Pero Siri era distinta: no estaba pensanda para recibir órdenes, sino para hablar con ella. Su misión es analizar nuestra frases en su contexto, examinarlas, pedir más información si es necesario y darnos una respuesta. En los últimos cinco años, hemos mejorado muchísimo, pero aún queda mucho por hacer...

Siri ha supuesto un gran avance...

Precisamente el SRI International (una institución de investigación independiente fundada por la Universidad de Standford), el lugar donde nació y creció Siri, están trabajando muy en serio en este tema.

Como dice Bill Mark, uno de los padres de Siri, el 'deep learning' supone toda una ruptura en el mundo del 'machine learning'.

Durante años hemos dedicado muchos recursos a crear herramientas que aprendieran solas y pudieran enfrentarse a problemas complejos. Eso era el machine learning, una rama de la inteligencia artificial que usamos para reconocimiento facial o para encontrar los patrones de un usuario en una tienda online. Uno de los ejemplos más conocidos es la aplicación de esta metodología para reconocer la escritura manual.

A principios de los noventa, el Servicio Postal de los Estados Unidos dedicó muchos recursos a crear un 'lector remoto' que permitiera reconocer los códigos postales manuscritos de forma automática.

Desde entonces, no hemos parado de utilizar el 'machine learning' para abordar problemas cada vez más complejos

El cuello de botella que provocaba la necesidad de insertar los datos a mano era un gran problema de eficiencia en una de las redes de correos más grandes del mundo. Necesitaron más de un millón de muestras para conseguirlo, pero para 1997 ya estaba implementado y funcionando con éxito. Hoy día el reconocimiento de la escritura manual es algo relativamente trivial.

Desde entonces, no hemos parado de utilizar el 'machine learning' para abordar problemas cada vez más complejos. Un ejemplo muy interesante es su aplicación al diagnóstico médico. Se ha usado en 'lectura' de radiografías (y otras técnicas de 'imagen para el diagnóstico') con resultados muy positivos, para 'cazar' el ébola o para analizar la expresión diferencial de los genes en investigación oncológica.

Parece un tema muy aburrido (regresiones, algoritmos, redes neuronales o árboles de decisión), pero como decía Ian Hacking: "ésta es la forma en que los grises estadísticos han cambiado el mundo: no descubriendo nuevos hechos ni desarrollos técnicos, sino cambiando la forma en que nosotros razonamos, experimentamos y nos formamos nuestra opinión".

...pero es la antesala de lo que viene

Hasta ahora hemos hablado de 'machine learning', el "deep learning" del que nos habla Bill Mark en el vídeo va más allá: "Queremos conseguir sistemas que realmente puedan tener una conversación con la gente para ayudarles a hacer cosas en red".

En realidad, no hay una división clara entre 'deep' y 'machine learning'. No dejan de ser los mismos procedimientos de aprendizaje automático solo que en un nivel de abstracción y complejidad mayor. Se usan algoritmos no lineales que combinan múltiples niveles de representación con la intención de llegar a comprender contextos y situaciones totalmente atravesadas por símbolos y significados.

"Queremos conseguir sistemas que realmente puedan tener una conversación con la gente para ayudarles a hacer cosas en red", dice Bill Mark

Cuando nos enfrentamos al lenguaje entendido como sistema de relaciones socioverbales, nos enfrentamos a un sistema que, sin ser totalmente arbitrario, se basa en consensos tácitos producto de relaciones sociales concretas. Como os podéis imaginar esto constituye todo un reto tecnológico.

La resolución de este problema nos ha permitido comprender que las frases del lenguaje natural dicen mucho más de lo que parece. Decir "Siri, ¿Crees que es buena idea comprar entradas para el partido del fin de semana?" es una forma de preguntar por la meteorología. Ese salto semántico y las necesidades técnicas que requiere están detrás del renacer de las redes neuronales de las que hablaremos más adelante.

Pero antes de eso, pongamos un ejemplo: Se suele decir que el mayor problema de los coches automáticos son los conductores humanos. En un entorno hipersincronizado, cualquier fallo puede suponer un error fatal. De hecho, muchos dan por descontado que, en realidad, una vez se generalicen este tipo de coches, la conducción humana tendrá que prohibirse.

Es difícil de creer. Cabe la posibilidad de que los humanos decidan que es mejor dejar de conducir y pase a ser mal visto, socialmente hablando. Pero, como apunta Bill Mark, no es muy probable que la prohibición venga por un problema tecnológico. No uno que el deep learning no pueda resolver. "Mi sistema de visión y mi cerebro actúan de forma rapidísima, pero hacerlo, hacer algo lleva mucho tiempo. Así que si el sistema puede anticipar dos, tres, cuatro, cinco o incluso cien posibles respuestas del usuario podrá recalcularlo rápidamente", dice Mark.

La conducción humana se basa en una comunicación permanente entre los conductores que permite que el sistema se autoregule. Lo que estamos comprobando es que esa comunicación la podrán entender las máquinas.

El renacer de las redes neuronales

En el SRI están desarrollando numerosas líneas de investigación en este sentido.

Una de las más interesantes es el desarrollo de sistemas que permiten analizar imágenes y vídeos en tiempo real y que logran geolocalizar cualquier foto a nivel internacional. Localizar fotos y vídeos ha sido un gran problema de los servicios de Inteligencia. Estos sistemas permitían analizar y comparar todos los repositorios de imágenes que hay en la red para situar fotografías con la mínima cantidad de información disponible. Ahora podemos incluir elementos culturales (comidas, vestimentas, tatuajes, etc.) de tal forma que podríamos decir que el sistema comprende perfectamente la foto en su contexto.

Por otro lado, están creando sistemas de vigilancia que aprenden e identifican patrones por sí solos y tienen una gran utilidad en vigilancia y contravigilancia. En todas las películas de espías se puede ver la gran cantidad de recursos que se dedica a hacer que todo parezca normal cuando no lo es. Estos sistemas de vigilancia pueden identificar los patrones de movimiento de un colectivo incluso si nunca repiten el mismo itinerario.

Estamos creando cerebros informáticos a imagen y semejanza de los nuestros.

Aplicaciones civiles también hay muchas: hoy en día, ya han puesto en marcha brazos robóticos que analizan la información en tiempo real y asisten a los cirujanos en las operaciones. Y tienen todo un laboratorio dedicado al procesamiento de lenguaje natural que es el lugar donde nació Siri y donde se obstinan en que una pregunta como "¿Hará falta paraguas hoy?" pueda llevar al asistente a pedir un taxi (si es que fuera necesario).

No son problemas triviales: la información visual es siempre parcial y tiene mucho ruido; la información verbal es convencional y dependiente del contexto. En este sentido, los retos a los que nos enfrentamos nos están llevando a usar algoritmos que simulan redes neuronales con un alto nivel de complejidad: estamos creando cerebros informáticos a imagen y semejanza de los nuestros.

Esencialmente estamos creando sistemas que imitan a conjuntos de neuronas (perceptrones, en términos técnicos) conectadas entre sí y que trabajan en conjunto, sin que haya una tarea concreta para cada una. Con la experiencia, las neuronas van creando y reforzando ciertas conexiones para "aprender" algo que se queda fijo en el tejido.

Comunícate (sin miedo) con tu asistente

A día de hoy, es cierto que el ser humano es la parte más lenta del sistema. Como dice Bill Mark, nuestro sistema nervioso es muy rápido. En los últimos años, hemos descubierto que toma decisiones incluso antes de ser consciente de ellas.

Esto nos da una idea de todo el tiempo (y las fases) que pasan desde que decidimos algo, hasta que realmente nos comportamos. Para hacernos una idea, solo nos damos cuenta de la segunda parte del proceso: cuando somos conscientes de la decisión y nos disponemos a ejecutarla, hace mucho tiempo que ya hemos tomado la decisión.

En los coches automáticos y también en el mundo de los asistentes virtuales, a diferencia de la comunicación analógica, cuando nos relacionamos con un ordenador lo hacemos de forma secuencial.

Lanzamos un output, él nos lo devuelve y así hasta el fin de los días (o hasta que se nos acaba la batería y todos sabemos lo que ocurre antes). En la comunicación analógica, el contexto, las microexpresiones y un largo etcétera de cosas nos permiten una comunicación más interactiva.

Eso es lo que está cambiando. Por un lado, los asistentes virtuales están aprendiendo a leer imágenes, a entender dobles sentidos y a comprender contextos. Por el otro, el "internet de las cosas" está aquí y eso significa que a partir de ahora vamos a dejar de interactuar con un solo ordenador para interactuar con todo un ecosistema.

Así es de esperar que todo se haga más natural y orgánico y que el rechazo sociocultural a comunicarse con ellos desaparecerá en pocos años. Tanto que acabaremos por relacionarnos con los asistentes como si tal cosa. Y causará el mismo estupor que el hecho de ver a gente hablando sola por la calle en la época de los primeros teléfonos móviles.

Pero será un estupor pasajero porque somos seres emocionales. Piénsalo: ¿Apagarías un robot si te suplicase que no lo hicieras? Como dice la profesora Helena Matute, la mayor parte de la gente no.

A medida que estamos creando asistentes con personalidad, tenemos una altísima capacidad de empatizar con ellos

En la medida en que estamos pensando sobre la personalidad y la apariencia de los robots, estamos comprobando que tenemos una altísima capacidad de empatizar con ellos. Y es esa empatía (como podemos ver en el movimiento animalista) una de las patas del reconocimiento de derechos y del cambio de las relaciones sociales.

La robofobia existirá claro pero como también dice Matute “supongamos que somos capaces de crear seres humanos artificialmente, ¿con qué derecho les vamos a negar esa condición, en comparación a lo que sería la producción de un ser humano a partir de una probeta?"

¿Hacia el médico robot? ¿Hacia un roboanalista financiero?

No nos llevemos a engaño: La creación de sistemas expertos que puedan interactuar de forma natural con todas las personas es seguramente una de las grandes promesas tecnológicas de nuestra época. Poder poner el mejor de los médicos en cualquier zona del mundo es una gran noticia para la humanidad.

Incluso un escenario más conservador en el que los asistentes virtuales simplemente nos 'mentorizaran' sería una revolución que cambiaría (y para bien) toda nuestra estructura social.

Las nuevas tecnologías nos exigen realizar cada vez cosas más complejas en la red.

Bill Mark y su grupo del SRI están trabajando en aplicaciones bancarias y financieras que ayuden a las personas a manejar mejor su dinero. No es un mala idea. El avance de las nuevas tecnologías nos exige realizar cada vez cosas más complejas en la red, pero sin facilitar del mismo modo herramientas que nos ayuden a tomar decisiones informadas.

Por ejemplo, el nuevo crowdfunding de inversión nos permite, teóricamente, mejorar el rendimiento de nuestro capital personal con respecto a los bancos. El problema es que la mayoría de nosotros no tenemos conocimientos suficientes para realizar esas inversiones.

Estamos en la línea de salida de la carrera que nos llevará de los "asistentes virtuales" a los "expertos virtuales".

¿Quién vigila a los expertos?

Es indiscutible que las aplicaciones de todas estas herramientas tendrán un impacto positivo sin precedentes en la sociedad. Pero todo gran poder, conlleva una gran responsabilidad.

El debate, como podéis imaginar, está servido. ¿El hecho de tener un mayordomo virtual nos hará dependientes a él como en la película de Wall-e o, en cambio, nos dará más tiempo para dedicarlo a lo importante?

Lo más probable es que como los asistentes se convertirían en un paso adelante en la independencia y autonomía personal.

Desde la primera época del ferrocarril, tenemos constancia del alarmismo que acompaña a las innovaciones tecnológicas. Y lo más probable es que como los asistentes se convertirían en un paso más de independencia personal como en su día lo fueron el ordenador, la lavadora o la luz eléctrica.

No obstante, como veíamos antes estamos entrando en problemas de nueva índole: "creamos estos seres a los que les damos inteligencia, capacidad de aprendizaje, emoción y sentimientos, ¿y no van a tener ningún derecho? ¿Van a ser nuestros esclavos? Hay que pensarlo".

Por ello, lo que sí debemos tener claro es que nunca está de más reflexionar críticamente sobre el futuro tecnológico. El gran reto de nuestro tiempo es saber andar por la estrecha línea que separa el ludismo del amor ciego a la tecnología sin olvidar nunca que ésta, la tecnología, ha sido el gran actor del mayor bienestar que ha tenido nunca la Humanidad.