CAPTCHA ya no es tan efectivo: a esta IA le bastan 0,05 segundos para resolverlas

Lidiar con las CAPTCHAs en las páginas web es algo que a prácticamente nadie le gusta, pero es necesario. Para los humanos son molestas porque interfieren en nuestro uso de la web, para los bots porque no pueden pasar de ellas. Aunque los últimos avances en aprendizaje automático están cambiando el caso de los bots, las CAPTCHAs ya no son imposibles para una máquina.

Google presentó en octubre de 2018 reCAPTCHA v3, un sistema que ya no necesita que demostremos que somos humanos de forma directa porque ya lo sabe según cómo interactuamos con la web. Es una mejora para el usuario pero sobre todo es un adelanto a algo que tarde o temprano tenía que llegar, los bots ya saben descifrar textos distorsionados.

La IA que se crea sus propias CAPTCHA para aprender a resolver las de otros

Hasta ahora algún que otro sistema de IA había conseguido resolver CAPTCHAs. El problema es que estas inteligencias artificiales requerían –como muchas inteligencias artificiales– de una gran base de datos para aprender a base de ejemplos. Sin embargo un nuevo sistema desarrollado por las universidades de Lancaster, Northwest y Pekin ha conseguido poner fin a este problema. Reducen drásticamente los ejemplos reales de CAPTCHAs que necesita su IA y encima es más rápida y efectiva.

En Magnet

Y por fin, un pequeño y heróico robot ha logrado desactivar el captcha "No soy un robot"

El nuevo sistema se basa en utilizar una red generativa antagónica. Esto significa que dos redes neuronales compiten entre si para aprender y mejorar sus conocimientos. en el caso concreto de esta inteligencia artificial, se genera sus propias CPATCHAs y las resuelve, lo único que necesita es unas cuantas CAPTCHAs reales para aprender a hacer sus propios ejemplos.

El sistema de red generativa antagónica es especialmente útil cuando no se disponen de datos suficientes, ya que permite crear ejemplos a partir de una cantidad mejor de ejemplos existentes. Por ejemplo los investigadores indicaron que para una de las pruebas sólo necesitaron 500 CAPTCHAs reales. ¿Parecen muchas? Otras inteligencias artificiales requieren de millones de CAPTCHAs reales.

El esquema que sigue la nueva IA para aprender a partir de pocas CAPTCHAs reales a generar otras y en definitiva aprender a solucionarlas.

Los investigadores pusieron a prueba su IA tratando de resolver 33 tipos de CAPTCHA distintas que utilizan textos distorsionados. 11 de estos esquemas de CAPTCHA son utilizados por las 30 páginas web más populares de Internet según Alexa, incluidas las CAPTCHA de Google, Microsoft o Baidu.

Después de que la máquina se entrenase usando CAPTCHAs generadas por ella y algunas de ejemplo, le dieron CAPTCHAs de estos portales web. El resultado fue que en la mayoría de las páginas web tuvo más del 80% de éxito y en algunos casos como las paginas web de Blizzard o Megaupload el éxito fue rotundo, del 100%.

Algunos ejemplos de CAPTCHAs reales de Google y las generadas por la IA para aprender.

Los sistemas a los que los bots aún no pueden engañar

El problema de que una IA resuelva tan fácilmente las CAPTCHAs es que las CAPTCHAs dejan de tener sentido, pierden su principal razón de ser. Se puede utilizar de forma indebida por bots para saltarse sistemas de seguridad y atiborrar los sitios web de peticiones falsas en formularios o cualquier otra acción. En este caso concreto, los investigadores indican que su sistema es fácil de implementar por otras personas, además de ser mucho más eficiente que otros métodos.

Pero al mismo tiempo que los bots se vuelven más inteligentes para resolver las CAPTCHAs, estas también aumentan su dificultad. Demostrar que eres humano con un texto distorsionado ya no sirve, ni siquiera por cómo mueves el cursor y éste pequeño robot nos lo demostró. El sistema de comportamiento que usa reCAPTCHA v3 de Google puede ser una buena solución, pues depende más de un historial de navegación que de una acción cooncreta.

Otros sistemas para lidiar con bots automatizados pueden ser por ejemplo una verificación en otro dispositivo. Certificados y sistemas de confianza en navegadores es otra de las opciones. O algo más directo como puede ser capas de seguridad más complejas en las páginas web para impedir el acceso de bots. Pero de momento tendremos que seguir demostrando que somos humanos descifrando textos distorsionados.

Vía | ML Memoirs
Más información | Universidad de Lancaster
Imagen | Unsplash