¿Puede una máquina entender el mundo a base de lo que ve?

Eso es lo que tratan de responder un grupo de ingenieros de la Universidad de Washington, que en los últimos meses han trabajado en un nuevo algoritmo llamado LEVAN (Learn EVerything about ANything). El objetivo de este desarrollo es lograr que el algoritmo construya conocimiento a partir de las imágenes que le suministramos.

El reconocimiento de formas que se ha utilizado en el pasado en robótica y otros campos parece por tanto ir aún más allá. De hecho, la idea sería algo similar a lo que hace la búsqueda por imágenes de Google, pero se utilizan permutaciones de una categoría en lugar de aquello que Google cree que nos interesa.

LEVAN "aprende" esos conceptos a base de ir integrando nuevas palabras de forma aleatoria (de momento son tan solo 175) y de realizar millones de búsquedas en Google Books para buscar modificaciones de esos conceptos y almacenando solo aquella información visual que agrega algo importante. Así, al buscar "perro" no se añadirían fotos de "mi perro", pero sí de conceptos como "pastor alemán", por ejemplo. Ali Farhadi, uno de los responsables de LEVAN, explicaba el funcionamiento del algoritmo:

Se trata de descubrir asociaciones entre datos textuales y visuales. El programa aprende a emparejar de forma precisa conjuntos de frases con los píxeles de las imágenes. Eso significa que puede reconocer instancias de conceptos específicos cuando las ve.

Según este equipo de la Universidad de Washington, la idea es la de desarrollar una aplicación que pueda etiquetar rápidamente imágenes para archivarlas. Este archivo sería complementario a la búsqueda de imágenes que ofrecen los motores actuales, pero en LEVAN se añade una capa adicional de conocimiento que aporta información que podría enriquecer esas búsquedas de imágenes.

Imagen | Ace-BGI en DeviantArt Vía | PC World
Más información | LEVAN
En Xataka | NameTag, la aplicación móvil que identifica a extraños gracias a las redes sociales