Las compañías de inteligencia artificial (IA) están hambrientas de datos para entrenar sus modelos. Una de las alternativas que más utilizan para saciar este apetito es el web scraping, una técnica que permite extraer y almacenar información pública de páginas web a diestra y siniestra. La mayoría de las veces esta actividad se realiza sin el consentimiento de los creadores o los licenciatarios del contenido, por lo que no existe pago alguno de por medio.

Reddit ha anunciado una medida para frenar el web scraping no deseado. La plataforma, que es el hogar de millones de conversaciones sobre una amplia variedad de temas catalogadas en subreddits, impedirá que compañías no autorizadas puedan utilizar su contenido público. Se trata de un cambio a nivel de backend, específicamente en el protocolo de exclusión del archivo robots.txt, que se pondrá en marcha “en las próximas semanas”.

Reddit, en pie de guerra con los web scrapers

El mencionado movimiento busca restringir el acceso al contenido de la firma liderada por Steve Huffman para aquellos actores que no tienen un acuerdo con la plataforma. Durante los últimos meses, recordemos, hemos sido testigos de como gigantes tecnológicos como OpenAI, propietario de ChatGPT, y Google, creador de Gemini, han formalizado alianzas con Reddit. En otras palabras, si no tienes un acuerdo, te quedas sin acceder a los datos.

Los cambios anunciados este miércoles se han visto reflejados en la Política de contenido público de la plataforma. Cabe señalar que, aunque la compañía le está declarando la guerra a los web scrapers promete seguir ofreciendo sus contenidos a investigadores y académicos. La plataforma también dice que garantizará el acceso a moderadores y organizaciones como Internet Archive, que busca preservar los contenidos en línea.

En el mundo de la IA que estamos viviendo no solo importa el texto, sino también las imágenes, la música o los vídeos. Durante mucho tiempo, como hemos visto, las compañías han “raspado” la web para alimentar sus modelos con contenido de todo tipo. Firmas como OpenAI, no obstante, son esquivas a responder detallar de dónde provienen los datos que utilizan, y señalan que utilizan contenido con licencia, mediante acuerdo, y contenido “disponible públicamente”.

Lo mencionado, sin embargo, no ha impedido que un gigante como The New York Times demande por infracción de derechos de autor a Microsoft y OpenAI. O que discográficas como Sony Music, Warner Music y Universal Music inicien una batalla legal contra los generadores de música Suno AI y Udio por aparentemente utilizar sus canciones. Estamos presenciando en directo la batalla por los datos para alimentar a la IA. Con el tiempo sabremos cómo acabará todo esto.

