Que Reddit y Twitter hayan capado sus APIs es un desastre para todo internet. Pero especialmente para Google

Captura De Pantalla 2023 07 03 A Las 11 28 21
13 comentarios Facebook Twitter Flipboard E-mail

Hasta no hace mucho, la información fluía libremente en internet. Eso está cambiando, y la culpa la tienen plataformas que nacieron como punto de encuentro de millones de usuarios.

Son esos usuarios los que las han alimentado todos estos años con inmensas cantidades de información y las han convertido en gigantes tecnológicos. Unos gigantes que ahora se han vuelto egoístas y están controlando cuánto y cómo se accede a toda esa información.

Eso es un problemón, y lo es especialmente para Google. El buscador que lo domina todo era el recurso de facto para encontrar cualquier tipo de información en internet, pero los últimos movimientos de empresas como Reddit o Twitter están provocando un efecto preocupante: de repente millones de resultados de búsqueda pueden llevar a enlaces rotos.

La raíz del problema, argumentan quienes lo denuncian, está en la inteligencia artificial. Modelos de IA generativa conversacional como ChatGPT o Bard funcionan así de bien gracias en buena medida a que han sido entrenados con ingentes cantidades de datos que han cogido sin aviso y sin permiso.

No es que tuvieran que hacerlo, al menos en el caso de contenidos no protegidos por derechos de autor. La información, insistimos, estaba ahí para quien quisiera consultarla, pero de repente hacerlo a esta escala se ha convertido en un problema.

Twitter fue la primera en hacer un movimiento polémico. En febrero Elon Musk anunciaba que se acababa el acceso a la API gratuita. Eso significaba que el acceso automatizado a la plataforma quedaba vetado, y con ello todo tipo de desarrollos y servicios que "tiraban" de esa API sin tener que pagar quedaban entre la espada y la pared. Bots y aplicaciones de terceros como Twitterriffic se veían obligados a decir adiós al no poder asumir el coste de acceso a esas APIs.

Reddit siguió sus pasos poco después. En abril sus responsables anunciaron que comenzarían a cobrar por el acceso a su API. La razón que exponían era la misma que Twitter (y Elon Musk) habían planteado: los modelos de IA estaban recolectando y usando sus datos de forma indiscriminada para entrenarse, y eso era demasiado.

Puede que efectivamente esa recolección masiva de datos fuera un problema para Reddit, pero por el camino la plataforma provocó el cierre de varios clientes muy populares como Apollo o RedPlanet. Las protestas fueron a más, y hace unos días se producía la mayor "huelga digital" de la historia de Reddit: más de 6.000 subreddits quedaron inaccesibles temporalmente al convertirse en foros privados.

Aquello no solo provocó una caída del tráfico a Reddit y un disgusto para quienes buscaban respuesta en sus foros esos días. Ese motín tuvo un impacto en el buscador de Google, cuyos resultados, cuando llevaban a Reddit, acaban en enlaces rotos o que mostraban que el foro al que estábamos intentando acceder era en ese momento privado.

Como explicaba Matt Rickard, ingeniero software que trabaja en el desarrollo de grandes modelos de lenguaje (LLMs), la situación actual es una amenaza crítica para Google. Como él decía,

"Los grandes modelos se entrenan con datos públicos extraídos a través de la API. Los sitios de gran contenido tienen más probabilidades de ser cambiados para siempre (¿por qué publicar en StackOverflow?) por modelos entrenados a partir de sus propios datos. Naturalmente, quieren restringir el acceso y (1) vender los datos o (2) entrenar sus propios modelos. Esta restricción impide (o complica) la extracción automática de datos por parte de Google para la búsqueda (y probablemente también para el entrenamiento de modelos)".

Así es: Twitter ha ido más allá este fin de semana y estableció un límite de mensajes que podían leer los usuarios. La medida evitaba (o al menos perjudicaba) la recolección de datos que trataba de saltarse la API de pago, pero una vez más ponía de manifiesto un problema mayor: muchos resultados de búsqueda podían acabar en mensajes de error y enlaces rotos.

Las cosas podrían ir a peor para Google y también para los modelos de IA como ChatGPT o Bard en el futuro: si no pagan el acceso a esas APIs, no podrán seguir entrenándolas como hasta ahora y logrando que evolucionen y mejoren a partir de esos datos. Reddit y Twitter son desde luego fuentes muy relevantes de información, pero hay una amenaza aún más llamativa.

Se trata de Wikipedia. ¿Qué pasa si la organización que la gestiona acaba decidiendo que el acceso va a estar regulado por una API de pago? Teniendo en cuenta que esta fuente de información es especialmente importante para los modelos de IA —y también para Google—, ese golpe sería especialmente notable.

Parece plausible que Wikipedia pueda hacer un movimiento de este tipo, sobre todo teniendo en cuenta que este organismo pide donaciones a los usuarios con relativa frecuencia y por tanto siempre está buscando fuentes de ingresos. Esa API de pago sería una solución interesante para ellos, pero nos encerraría aún más en una situación preocupante.

Una en la que Google ya no nos daría respuestas. Tendríamos que ir específicamente a Reddit, a Twitter, a StackOverflow o a Wikipedia a buscarlas, quizás pagando por poder hacerlo.

La información, que fluía libremente en internet, habría dejado de hacerlo. Ahora todo estaría más fragmentado, y cada plataforma sería una especie de pequeña internet autocontenida y aislada del resto. Eso sería terrible para todos, pero sin duda lo sería especialmente para Google.

Imagen | Bastian Riccardi

En Xataka | Guerra abierta por el buscador del futuro: por qué Google y Microsoft se han obsesionado con ChatGPT

Comentarios cerrados
Inicio