Microsoft Research le gana al resto en reconocimiento de imagen

Los departamentos de investigación y desarrollo de Microsoft están en plena forma, lo demuestra su participación en la competición ImageNet que se realiza anualmente. Allí llegan las principales empresas, algunas startups, y laboratorios académicos, para presentar los mejores sistemas de reconocimiento de imagen.

Microsoft Research se ha llevado el premio en diferentes categorías, superando a nombres tan especializados en la materia como Google, Intel, Qualcomm, o el gigante chino Tencent. El sistema ganador está desarrollado por Kaiming He, Xiangyu Zhang, Shaoqing Ren, y Jian Sun.

La competición en reconocimiento de imagen se basa principalmente en dos pruebas: localización y categorización

Bautizado con el rimbombante nombre de “Deep Residual Learning for Image Recognition”, será explicado con mayor profundidad y detenimiento en próxima documentación que Microsoft va a compartir en su blog, pero por ahora nos tenemos que fiar de los resultados de la competición, y entender que es un sistema realmente complejo.

La competición que plantea ImageNet propone que los sistemas localicen correctamente y clasifiquen objetos en 100.000 fotografías sacadas de sitios como Flickr y buscadores. Había que conseguir colocar los elementos en 1.000 categorías diferentes: tarantulas, iPods, juguetes, etc. Microsoft se calificó con un error del 3,5% en clasificación, y un 9% en localización.

Jian Sun, responsable de Microsoft Research en la competición

En Microsoft presumen de que su sistema se basa en el aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales, capacitando a la red neuronal artificial con una profundidad superior a 150 capas.

En años anteriores los ganadores fueron Google, la startup Clarifai y la japonesa NEC. Es curioso no encontrar otro nombre importante en este campo como es Baidu, que no aparece en los diferentes rankings. Al parecer realizaron más pruebas de las permitidas y fueron descalificados de la competición.

Sabíamos que Microsoft Research tiene absoluta prioridad en sistemas de reconocimiento y detección de objetos, incluso había estado jugando con humor con su tecnología en webs como “How Old Do I Look?” y “How’s My Moustache Doing?”. También es capaz de buscarte un doble.

Nvidia se pone medallas

Para conseguir llegar al primer puesto también hay que estar bien acompañados en el hardware. IBM y ImageNet han decidido que la mejor forma de trabajar en el problema pasa por usar unidades gráficas de proceso.

Los sistemas de reconocimiento de imagen están superando las posibilidades del hombre

Nvidia es el socio ideal para estas lides, pero además es el elegido por la organización para que todos jueguen con las mismas herramientas.

Los sistemas de reconocimiento de imagen basados en aprendizaje automático y unidades de procesado gráfico son solo la punta del iceberg en las investigaciones de las compañías. Lo que aquí se aprende se puede extender a otros campos, como el reconocimiento del habla, o las traducciones automáticas.

Más información ImageNet | Microsoft | Nvidia

Nvidia se pone medallas

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios