5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

Captura De Pantalla 2023 04 20 A Las 17 49 02
30 comentarios Facebook Twitter Flipboard E-mail

Es genial que ChatGPT conteste así a tus preguntas, que Copilot te escriba código él solito  o que Midjourney genere esas imágenes tan chulas. Lo que no es tan genial es no saber cómo han sido entrenados esos modelos de inteligencia artificial.

Empresas como Meta (LLaMA), OpenAI (ChatGPT, DALL-E), Stability AI (Stable Diffusion, StableLM) o Google (Bard) han entrenado esos modelos usando grandes conjuntos de información de los que no se sabe demasiado. Una investigación de The Washington Post da más pistas en uno de esos casos, y me he encontrado con una sorpresa: 5.000 de los artículos de mi blog forman parte del entrenamiento.

Ninguna de las empresas que son actualmente punta de lanza en el ámbito de la inteligencia artificial generativa dan demasiados datos sobre cómo han entrenado sus modelos. Y sin embargo, hay quien ha intentado desentrañar esos procesos.

Analizando 15 millones de sitios web

En WaPo se centraban en el análisis del dataset Google C4, que ha sido usado para entrenar al menos a dos modelos LLM representativos. El primero, el propio Google T5, algo menos conocido pero comparable (y coetáneo) de GPT-3. El segundo, LLaMA, el modelo LLM de Facebook del que hablamos recientemente.

Ese conjunto de datos cuenta con 15 millones de sitios web, de los cuales pudieron categorizar 10 millones: los otros 5 ya no están activos en internet. El más prominente está Google Patents (curioso), mientras que el segundo es Wikipedia y el tercero, Scribd.

Hay sorpresas interesantes: en el número 190 en ese particular ranking de relevancia en esas fuentes está b-ok.org, una plataforma que distribuía ilegalmente e-books protegidos por derechos de autor. También había algunos sitios web que contenían datos sensibles como bases de datos de votantes que son públicas pero que cuyo uso en estos casos podría derivar obviamente en suspicacias.

El análisis pronto ofrece conclusiones sobre cómo entre las grandes fuentes presentes en ese conjunto de datos están las de los medios online: The New York Times, The Guardian o el propio WaPo representan una parte decente de ese entrenamiento, algo que —como en otros casos— está haciendo que algunos de esos medios protesten. "Si quieres usar mis contenidos para entrenar, págame", parecen decir potenciales demandas como la The Wall Street Journal.

¿Qué hace mi blog ahí?

Pero junto a los medios de cierta entidad, otra de las fuentes del entrenamiento (3,8% en total) son los blogs. Medio millón de blogs personales en plataformas como WordPress, Tumblr, Blogspot o Live Journal. Precisamente ahí es donde encontré la sorpresa: mi blog estaba entre ellos.

Captura De Pantalla 2023 04 20 A Las 17 22 34
¿Perdón?

En ese artículo de The Washington Post hay una última parte en la que uno puede comprobar si cierto sitio web está entre los que se usan en el dataset Google C4. Quise probar algunos (Xataka no está, pero sí están unos pocos tokens de Xataka Foto y Xataka Android), y al poco me dije, "¿estará mi blog?".

Pues sí. Estaba. No es que la presencia fuera excesiva (un token suele equivaler a una palabra o, como mucho a una frase), pero aún así aparecía con una recolección de 5.100 de ellos.

¿Por qué están ahí? Yo, desde luego, no he dado permiso para ello. Publico mi blog, Incognitosis, desde mayo de 2005, y aunque durante los primeros tiempos ni siquiera pensé en qué tipo de licencia tenía mi contenido, acabé publicándolo con licencia CC BY-SA —en el pie del blog lo indico claramente—. O lo que es lo mismo: si me citas, dame atribución (cítame, enlázame). Google, que yo sepa, no lo ha hecho en este dataset.

¿Qué supone esto? En mi caso, desde luego, una pequeña rabieta. No me importa que se aprovechen mis contenidos, pero agradecería que me avisasen y me enlazasen, como bien señala esa licencia. 

Esa pequeña rabieta puede ir a mucho más en el caso de medios con fines comerciales y de empresas, entidades o personas que no han dado su permiso explícito para que sus contenidos acaben formando parte de esos conjuntos de datos. 

Es la razón por la que estamos comenzando a ver demandas como la que afecta a GitHub Copilot en el ámbito de la programación o la que también han recibido los creadores de Stable Diffusion por su entrenamiento con imágenes de Getty

Las cosas probablemente podrían ir a más, sobre todo cuando algunas empresas reconocen abiertamente cómo han entrenado a sus plataformas recolectando datos de forma indiscriminada. 

David Holz, fundador de Midjourney, lo hacía el pasado mes de diciembre. Le preguntaron si había pedido permiso para entrenar su modelo con imágenes con copyright. ¿Su respuesta? 

"No. No hay realmente una forma de coger cien millones de imágenes y saber de dónde provienen. Estaría bien que las imágenes tuvieran metadatos incrustados sobre el propietario del copyright o algo así. Pero eso no existe; no hay ningún registro. No hay forma de encontrar una imagen en Internet, rastrearla automáticamente hasta su propietario y hacer algo para autenticarla".

La declaración es desde luego peligrosa para Holz, pero revela un problema real —en muchos casos la trazabilidad de las imágenes es compleja— y otro potencial. Uno de demandas y más demandas a los creadores de estos modelos. 

Datasets en la era de la inteligencia artificial

OpenAI dio algunos detalles sobre el proceso de entrenamiento de su modelo LLM en 2020, cuando mostró el estudio que daría lugar a GPT-3 (y a posteriori, a ChatGPT). La Wikipedia, por ejemplo, fue una pequeña parte de ese entrenamiento: representaba el 3% del mismo. Había un gran "corpus" con dos grupos de libros (Books1, Books2) que representaban el 16% entre ambos, pero los grandes conjuntos de datos procedían de texto extraído de la web. ¿Qué libros incluye ese "corpus"? Se supone que obras de dominio público, pero la cosa no es del todo segura. Hay quien trató de descubrirlo, y acabó creando un corpus propio llamado books3.

Captura De Pantalla 2023 04 20 A Las 16 00 33
Fuente: ArXiv.

Como explicaban en Gregoreite, uno de ellos, WebText2, es el texto de páginas web que provienen de todos los enlaces salientes de Reddit de posts con más de tres votos positivos. Ese texto ya era el 22% del conjunto de datos de entrenamiento, pero su peso en el entrenamiento (hay más detalles en la publicación que OpenAI hizo en 2019) es mucho mayor por ejemplo que el de Common Crawl, y es solo inferior al de Wikipedia.

El otro, casi el triple de grande, era el llamado Common Crawl, que contiene petabytes de datos recolectados tras rastrear la web desde 2008. En esos datos hay contneidos de páginas web, pero también metadatos y extractos de textos que en algunos casos están ligeramente filtrados. Hay imágenes, aunque los chatbots las ignoran, y en esencia lo que hace Common Crawl tiene su sentido práctico cuando accedemos a Internet Archive, el valiosísimo recurso que (entre otras cosas) permite acceder a sitios web en distintos momentos del pasado.

Datasets
Fuente: LifeArchitect

Ha habido otros analistas que han tratado de desgranar qué datos forman parte de esos grandes datasets. En LifeArchitech Alan Thompson publicó un completo estudio desgranando los conjuntos de datos de varios modelos e incluso analizó cuáles son las grandes fuentes de cada uno de esos grandes datasets.

Datasets
Fuente: LifeArchitect.

En ese estudio destacaba por ejemplo el papel de las patentes que Google almacena en ese servicio, y que representaban nada menos que el 0,48% de Common Crawl. Parece poca cosa, pero teniendo en cuenta que estamos hablando solo de patentes, la cifra es asombrosa. Medios como The New York Times, Los Angeles Times o The Guardian apenas sí representaban un 0,06% de ese mismo conjunto de datos.

Thepile

También se mostraba un desgranaje de The Pile, otro de los datasets "de moda" —ha sido usado por ejemplo en el reciente StableLM—. Cuenta con 800 GB de datos y ha sido "curado" precisamente para alimentar a estos modelos de inteligencia artificial.

Hay varias conclusiones en esos estudios. Una de ellas es que el corpus dedicado a los libros es ínfimo, se estima que un 1% de todos los libros publicados (y de hecho, solo porciones de ellos). Otra, que el inglés es absolutamente dominante en esos conjuntos de datos, algo lógico si tenemos en cuenta que la lengua franca de internet es precisamente el idioma sajón.

Es evidente que estos conjuntos de datos son enormes pero imperfectos, y es probable que teniendo en cuenta la explosión que estamos viviendo en este ámbito, haya mucho trabajo de futuro precisamente en cómo se entrena y sobre todo con qué datos se entrena a estos modelos. 

La sensación es que estamos en un momento en el que la cantidad prima sobre la calidad, y lo que precisamente necesitamos es que la calidad empiece a pesar sobre la cantidad.

Imagen: Javier Pastor con Bing Image Creator

En Xataka | OpenAI ha usado millones de textos para entrenar a ChatGPT. El problema es que muchos de ellos tienen copyright

Comentarios cerrados
Inicio