The Internet Archive estaba caído. La principal sospecha: alguien estaba entrenando a una IA

The Internet Archive es la gran hemeroteca de la red de redes, aunque eso a veces la lleve a tener problemas. Gracias a este proyecto podemos por ejemplo hacer un viaje al pasado de la web, disfrutar de contenidos de audio y vídeo, rememorar el uso de calculadoras científicas o incluso echar unas partidas a viejos éxitos retro gracias a la emulación. Este tipo de servicio es una de las joyas de internet, pero estos días algo inaudito pasó: The Internet Archive estaba caído. ¿Qué pasó?

Error 502. El pasado domingo 28 de mayo quienes intentaron acceder al servicio se encontraron con el mensaje "Server Error 502". O lo que es lo mismo: los servidores estaban soportando demasiada carga.

En Xataka

5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

¿Una IA glotona? Mark Graham, responsable de la "máquina del tiempo" de The Internet Archive (Wayback Machine), explicaba la teórica razón: la culpa la había tenido la inteligencia artificial. Y más concretamente, una empresa no especificada que estaba entrenando su modelo de IA con datos de The Internet Archive. Esa era al menos la sospecha, aunque los propios responsables de este organismo explicaban que también había podido ser un usuario particular extrayendo mucha información.

Miles de solicitudes. Poco después uno de los responsables de la plataforma, Brewster Kahle, daba algunos detalles más sobre el suceso en el blog oficial de The Internet Archive: un conjunto de 64 máquinas virtuales hospedadas en la plataforma AWS de Amazon estaban lanzando "decenas de miles de solicitudes por segundo" para recolectar sus archivos OCR de dominio público.

Solución: bloquear IPs."Incluso para los estándares web, decenas de miles de solicitudes por segundo es mucho", explicaba Kahle, que indicaba que eso había provocado una caída del servicio de aproximadamente una hora. Los ingenieros lograron atajar el problema con una medida tajante: bloquearon el acceso a las IPs de las que procedían esas peticiones.

Segundo intento. La cosa no terminó ahí, y tras atajar aquellas peticiones apareció una segunda ronda de 64 direcciones IP que volvía a poner en problemas el servicio. De nuevo hubo otra hora en la que el servicio de The Internet Archive estuvo inaccesible, y de nuevo tuvieron que bloquear esas IPs.

Mejor pedir permiso. El problema de la caída se debió a la dimensión de las peticiones. Kahle explicaba que "aquellos que quieran usar nuestros materiales en masa deberían empezar poco a poco e ir aumentando el ritmo". Además, indicaba, "si vas a crear un gran proyecto por favor contacta con nosotros en info@archive.org, estamos aquí para ayudar". La idea aquí era clara: usar The Internet Archive es perfecto, pero "no nos provoques una caída en el proceso".

Modelos hambrientos. El problema al que se ha enfrentado The Internet Archive podría repetirse en el futuro para otras plataformas: los grandes modelos de IA como ChatGPT se entrenan con grandes cantidades de datos: la Wikipedia o los repositorios de código de GitHub son un buen ejemplo, pero esas peticiones, hechas de forma masiva, pueden hacer que para el resto de los usuarios el servicio se vea perjudicado o incluso quede inaccesible. Conviene por lo tanto que este tipo de empresas contacten con esas plataformas para evitar este tipo de problemas.

Imagen: Jason Scott

En Xataka | Alguien debe clasificar los datos que usamos para entrenar una IA, pero muchos sólo ganan 2,50 dólares/hora por ello

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios