RSL Collective cree tener en su mano la solución a uno de los grandes males de la IA: robar contenido y no pagar por ello
Es una queja recurrente: los modelos de IA devoran contenido de forma industrial. Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores. Cada compañía tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de información y hacen lo que se denomina scraping. Recorren millones de página web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para seguir su batida digital.
Una vez entrenados, los modelos llaman a herramientas de búsqueda web si no tienen suficiente información para resolver una consulta. Esto suele ocurrir con temas de actualidad o sobre los que han aparecido nuevos detalles desde que se entrenó el modelo. Cuando esto sucede, un nuevo bot extrae contenido de los sitios web que necesita para aderezar la respuesta que dará la IA.
Una dinámica que conlleva problemas. El más visible está relacionado con la propiedad intelectual y quedaba patente al ver las imágenes que generaba ChatGPT con estilo del Studio Ghibli o los vídeos hechos con Seedance 2.0, en los que aparece la imagen de actores reales en escenas generadas artificialmente.
En los últimos tres años han proliferado los litigios por infracción del copyright. Es de sobra conocida la demanda del New York Times a Microsoft y OpenAI, acusándolos de utilizar millones de sus artículos para entrenar ChatGPT. Antes incluso de esta acusación, una agrupación de artistas demandó a generadores de imágenes como Stability AI y Midjourney.
Medios de comunicación y asociaciones de derechos de autor también han emprendido acciones legales contra Perplexity, al igual que contra Meta, aunque esta de momento ha salido bien parada. En 2025, OpenAI tenía tantos casos por violación de derechos de autor que logró agrupar una buena parte de ellos en un solo tribunal de Nueva York, para facilitar su defensa.
Ante una demanda colectiva de autores, la solución de Anthropic fue llegar a un acuerdo. Eso sí, oneroso: tuvo que desembolsar unos 1.500 millones de dólares. Era el equivalente a 3.000 dólares por cada uno de los 482.460 libros que admitió haber descargado ilícitamente para entrenar a su IA.
El ambiente ha llevado a las empresas desarrolladoras de IA a licenciar contenido. OpenAI llegó a un acuerdo con el grupo mediático News Corp para tener acceso a sus informaciones durante cinco años a cambio de 250 millones de dólares. También ha sellado alianzas con la agencia Associated Press o los grupos Condé Nast y Axel Springer. Meta firmó con la propia News Corp y también con la agencia Reuters. Mientras que Google y, de nuevo OpenAI, pagan a la plataforma Reddit por entrenar sus modelos.
Irónicamente, quizá la alianza más sonada ha sido la de OpenAI con Disney. Un acuerdo sellado a finales del pasado año que permitía al generador de vídeo Sora utilizar los personajes de la productora, incluidos los de franquicias como Marvel, Star Wars o Pixar. Aunque los términos han quedado en suspenso con el reciente cierre de la app.
Pero la violación de los derechos de autor no es la única sombra del rastreo indiscriminado de los bots. Los sitios web se quejan porque si su contenido se regurgita mediante una IA, el usuario no visita la página web, de manera que se pierde tráfico y se pierde negocio.
La voracidad de los bots, además, puede provocar incidencias técnicas. El CEO de la web especializada en reparación iFixit afirmó que el bot de Anthropic visitó su sitio un millón de veces en un día. El caso de la plataforma Freelancer fue aún peor. En cuatro horas recibió casi cuatro millones de peticiones. Este aluvión de visitas supone más costes en cómputo a los portales web y puede saturar los servidores hasta degradar la experiencia de los usuarios humanos.
Con el fin de echarle el lazo a los bots de IA el pasado año se creó el RSL Collective. De esta organización nace el estándar abierto RSL (Really Simple Licensing), que pretende que cada sitio web pueda controlar el acceso de los bots a su contenido. Lo respaldan plataformas como Yahoo, Reddit, Medium o Quora y uno de sus principales objetivos es proporcionar una fórmula universal para que las páginas web puedan licenciar su contenido.
Un Spotify para el contenido de Internet
RSL permite a cada web definir cuáles de sus páginas están disponibles para los bots, qué páginas podrán usar solo con citar a la web como fuente y por cuáles tendrán que pagar. Todo se hace a través del archivo robots.txt, un documento que ofrece instrucciones simples a los bots para navegar en cada web. Con el nuevo estándar se pueden crear reglas más complejas.
“Somos la llave para abrir las puertas. Lo que hacemos es dar a las páginas la infraestructura, los estándares, para que puedan poner sus propios términos de uso”, resume Doug Leeds, antiguo CEO del buscador Ask.com y uno de los fundadores de la iniciativa. Su socio es Eckart Walther, que fuera cocreador del estándar RSS (Really Simple Syndication), de donde le viene el nombre a RSL, y también su filosofía de fondo.
Leeds puntualiza que su organización no se ocupa de bloquear bots. Si el propietario de una web decide hacerlo, solo tiene que especificarlo en las instrucciones de RSL y aquí entran en juego otros actores. Cloudflare, Akami o Fastly proporcionan este servicio. Aunque la idea es incentivar un pago justo por el contenido.
Para entender el funcionamiento, Leeds ofrece un ejemplo práctico: “Si una compañía, pongamos que fuera OpenAI, licencia el corpus entero de nuestro repositorio tendría el derecho a usar toda esa información. Pagaría un precio fijo, una tarifa plana, y no pagará más si utiliza más información. Cuando el contenido se utilice en sus modelos, tomaremos el dinero que nos han dado y pagaremos al sitio cuyo contenido OpenAI ha utilizado. Cuanto más utilicen tu contenido más dinero recibirás”.
Leeds compara la fórmula con Spotify o Apple Music. La esencia es una tarifa plana que después se reparte entre las webs que han visitado los bots. Ya hay más de 1.500 compañías creadoras de contenido que apoyan la iniciativa. Aunque no es el único proyecto que busca retribuir a los creadores.
Cloudflare, proveedor de CDN y servicios de backend, tiene su propio sistema para prevenir el llamado ‘scraping’. Y dentro de este programa cuenta con una funcionalidad en beta privada que permite rentabilizar el acceso a los contenidos. Se denomina ‘Pay Per Crawl’ y el nombre no puede ser más explícito. “Sirve como puente entre los editores y los modelos de IA en base a una dinámica de mercado. Permite a los creadores controlar y monetizar el acceso de los rastreadores de IA al contenido”, cuenta Lara Cohen, vicepresidenta de Strategic Partnerships de Cloudflare.
Por qué OpenAI, Google, Anthropic querrían pagar por el contenido
Ante estas iniciativas la duda surge por sí sola. Las compañías que desarrollan modelos de IA han rastreado Internet a su antojo hasta ahora. ¿Por qué ahora estarían dispuestas a pagar por lo que han obtenido de manera gratuita?
Leeds tiene claro que OpenAI, Google, Anthropic y el resto de grandes desarrolladoras de IA preferirían “licenciar el contenido a robarlo”. Pero a día de hoy esto significaría tener que cerrar cientos de miles de acuerdos, una perspectiva inviable. Además, hay otro motivo.
“Estas compañías gastan enormes cantidades de potencia de cómputo y de procesamiento para tomar un contenido y mezclarlo con otros contenidos no originales. Y así creen que no tendrán muchos problemas legales, porque no tienen derechos para simplemente ofrecer el contenido original”, explica Leeds. “El resultado es que no entregan las mejores respuestas. Mientras que licenciar el contenido les permitiría ofrecer las mejores respuestas y, además, ahorrar grandes cantidades de dinero en computación”.
Esto quiere decir que cuando pides una receta a ChatGPT o a Gemini te genera una respuesta que es la mezcla de varias recetas de las que ha extraído información. Aparentemente funciona bien. Tiene coherencia, los ingredientes son los esperados. No es como para envenenarte si la sigues. “Pero no está usando una sola receta”, matiza Leeds. “Puede decirte que uses un ingrediente de un sitio y sacar el tiempo de cocción de otro. Y quizás el tiempo de cocción no es el apropiado para ese ingrediente, porque no era la misma receta. Así que descubrirás que no has cocinado la comida lo suficiente cuando ya sea tarde”.
El cofundador de RSL cree que los modelos de IA podrían ofrecer una sola receta o una serie de opciones. Algo que no parece muy diferente a lo que ya hace el buscador de Google. Pero Leeds sí cree que el modelo de IA, el LLM, ofrece un valor a la búsqueda. Tendría un papel contextual.
“El LLM te puede decir que utilices una de las recetas si lo que quieres es hacerlo sencillo o que una lleva más tiempo y otra menos”, señala. “Creo que la IA es mejor producto que las búsquedas tradicionales. El problema es que comete fallos y tiene un alto coste. Y aparte de esto, lo cierto es que no es sostenible. Si las empresas siguen recopilando contenido sin pagar por él, más pronto que tarde no habrá contenido que recopilar”, concluye, aludiendo a la pérdida de ingresos que sufrirán los creadores si se les salta en la cadena de suministro de información.
Pagar por los contenidos supondría un desembolso para las compañías de IA, pero desde el RSL Collective creen que solo se movería dinero de un sitio a otro. “El coste de la licencia provendrá de la cantidad destinada al cómputo”, destaca Leeds. “Las compañías se gastan miles de millones de dólares en cómputo pero casi nada en información. Nuestra fórmula no tendría tanto impacto en sus márgenes de beneficio porque se ahorrarán mucho dinero en procesamiento y lo podrán destinar a licencias”.
A tenor del enrevesado panorama relativo a los derechos de autor y la IA, las empresas desarrolladoras tendrían otra ventaja. “También ahorrarán mucho dinero en defensa legal y litigación, porque no les volverán a demandar”, añade Leeds, quien admite que aún no han comenzado las conversaciones con las empresas de IA. En este momento trabajan en garantizarse los apoyos suficientes, en formular los términos de los acuerdos de licencia y su valor económico. El inicio de negociaciones podría empezar en unas semanas.
El plan B: bloquear el acceso al contenido
El enfoque de Cloudflare ante los bots rastreadores es más técnico. Su programa AI Crawl Control identifica a este tipo de herramientas cuando entran en una página web. Las califica como una clase distinta de tráfico en vez de visitantes humanos. Así lo cuenta Lara Cohen: “Proporciona visibilidad y control sobre el ‘scraping’ no autorizado a través de un directorio global, actualizado dinámicamente, de rastreadores de IA conocidos. Los propietarios de los sitios web pueden bloquear a estos agentes fácilmente en todo su dominio o en páginas específicas de alto valor”.
La idea plantea un Internet basado en permisos de acceso. Existen muchos bots útiles, necesarios para que una página web aparezca en los resultados de Google o para monitorizar el tiempo de actividad. Cloudflare mantiene un registro de bots verificados, que deben cumplir con ciertos estándares de transparencia, identidad y propósito declarados, para facilitar su control.
Pero el programa también tiene sus propios métodos para evaluar el tráfico que entra en una web. “Más allá de las simples verificaciones de identidad, nuestro sistema utiliza detección heurística avanzada y modelos de aprendizaje automático para identificar las huellas digitales únicas y los patrones de comportamiento de los ‘scrapers’ de IA”, destaca la vicepresidenta de Strategic Partnerships de Cloudflare. “Así garantizamos que incluso los bots que intentan disfrazar su identidad sean neutralizados antes de que puedan ingerir su contenido”.
Si los bots ignoran las políticas definidas por el sitio web, la compañía tiene otra arma. La denominan AI Labyrinth. “Se activa cuando un rastreador es identificado como no conforme o de alto riesgo”, expone Cohen. “Cloudflare inyecta enlaces invisibles de tipo ‘no-follow’ en el HTML de su sitio que son indetectables para los humanos pero son irresistibles para los ‘scrapers’. Estos enlaces conducen a un laberinto de páginas señuelo generadas por IA que desperdician los recursos del ‘scraper’ y contaminan los datos que intenta robar”.
Las páginas de esta trampa las genera Cloudflare con un modelo de IA. “A medida que el bot rastrea más profundamente, encuentra más enlaces, quedando atrapado en un bucle infinito de datos sin sentido”, resalta Cohen, y explica que esto obliga al agente a desperdiciar sus propios ciclos de cómputo y ancho de banda en contenido inútil. De esta forma, el coste de rastrear ese sitio web será mucho mayor que el valor de los datos obtenidos.
Otros proveedores de servicios CDN también ofrecen programas de detección de bots para controlar su acceso a los sitios web. Es el caso de Akami Bot Manager o Fastly AI Bot Management. Sin embargo, por ahora el único estándar abierto que aspira a compaginar los intereses de los portales web de contenido con las compañías desarrolladoras de IA es la iniciativa RSL.
En todo caso, se trata de soluciones diseñadas para un Internet que cambia a pasos de gigante y donde los bots adquieren cada vez más presencia. En 2025 el tráfico de estos agentes alcanzó el 51% del total. Es la primera vez que superan al tráfico humano a nivel global, según el infome Imperva Bad Bot, que lleva años analizando el escenario. No es de extrañar que a la teoría del Internet muerto, que vaticina una Web donde el contenido lo crean los bots y no las personas, le salgan cada vez más adeptos.
Luchar contra esto es precisamente lo que busca Leeds. “Nuestra cultura, cualquiera que sea la que tengas, nuestros gobiernos, los sistemas democráticos, nuestras vidas necesitan información producida por humanos para funcionar. Se puede agregar, sintetizar, la puede servir una IA, pero si no tenemos información creada por humanos tenemos un problema”, manifiesta el cofundador de RSL.
Dice que él y su socio han rechazado mucho dinero de fondos de capital riesgo. ¿Mucho? “Sí, millones de dólares”, y añade: “Evidentemente, los inversores querrían que fuéramos una compañía que busca beneficios, para poder tener un retorno de su inversión. Y no me gusta la idea de que esto interfiera en nuestra misión. El dinero tiene que ir a los creadores y a los editores, no a los inversores”. Un idealismo destinado a chocar con la realidad. O a transformarla.
En Xataka | Para crear una app, antes el problema era escribir código. Ahora es esperar a que la Apple te lo valide
Ver todos los comentarios en https://www.xataka.com
VER 1 Comentario