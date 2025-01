Meta suele presumir de cómo su modelo de IA, Llama, es Open Source. Lo que no dice es con qué conjunto de datos la han entrenado. Un reciente proceso legal ha hecho que se revelen documentos que precisamente revelan algunos detalles sobre ese proceso de entrenamiento. Y son inquietantes.

Libros pirateados para entrenar el modelo. En el caso Kadrey contra Meta, que incluye a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y los documentos desvelados en dicha demanda revelan que los demandantes parecen tener razón.

Zuckerberg dijo que sí a usar libros pirateados. Según los testimonios del caso, Zuckerberg aprobó que Meta usara un conjunto de datos llamado LibGen para entrenar los modelos Llama. Lo hizo a pesar de que personas de su equipo y algunos empleados no vieran con buenos ojos tales medidas. Según los documentos de la demanda, algunos empleados de Meta advirtieron de que usar LibGen "podría minar la posición negociadora de Meta con los reguladores".

Qué es LibGen. LibGen (Library Genesis) se define a sí mismo como un "agregador de enlaces", pero en realidad era una gigantesca biblioteca virtual que proporcionaba acceso a obras con copyright de grupos editoriales como McGraw Hill o Pearson Education. Ha sido demandada en varias ocasiones y también multada con decenas de millones de dólares por violación de copyright. En septiembre de 2024 recibieron una multa de 30 millones de dólares, pero no se sabe quién está a cargo de dicha "biblioteca fantasma", lo que hace muy difícil que los grupos editoriales reciban esos fondos.

Voracidad sin límites. Ya en abril de 2024 The New York Times habló de cómo las tecnológicas hacían frente a ese hambre voraz de datos para entrenar sus modelos. En cierto momento Meta llegó a contratar personas en África para agreatar resúmenes de libros que incluían contenidos con copyright "porque no es posible no recolectar esos datos". En dicha investigación Meta acusó a OpenAI de usar material con derechos de autor sin permiso, y sus directivos destacaron cómo "llevaría demasiado tiempo negociar licencias coneditoriales, artistas, músicos y la industria de los medios de actualidad". Las prácticas a las que llegan las empresas incluyen por ejemplo la de usar fotos de niños para entrenar esos modelos.

Que no parezca que tienen copyright. Según el abogado de los demandantes, un ingeniero de Meta llamado Nikolay Bashlykov escribió un programa para eliminar la información sobre los derechos de autor de los libros electrónicos que recolectaron de LibGen para entrenar el modelo. También eliminaron esas etiquetas en los artículos de revistas científicas que usaron en ese proceso de entrenamiento de Llama.

Y además ayudaron a distribuir esas obras. En Meta al parecer no solo utilizaron esas obras para entrenar LibGen, sino que se convirtieron en una semilla o nodo más de la red torrent con la que se distribuían las obras de LibGen, ayudando así a difundirla. Eso amplía aún más la violación de los derechos de autor, que no se limitó al uso de las obras para el entrenamiento de Llama, sino a servir como mecanismo de difusión.

Un caso difícil. Aun así, de momento no hay decisión clara respecto a lo que ocurrió, y todas esas acusaciones se centran en las anteriores versiones de Meta. En 2023 un juzgado ya desestimó las acusaciones contra Meta por un motivo idéntico. La empresa de Mark Zuckerberg indicó entonces que había realizado un Uso Justo ('Fair Use') de esos datos, pero puede que ese argumento no le sirva en esta ocasión. De hecho, el juez Vince Chhabria se negó a ocultar datos que Meta prefería ver omitidos en la documentación del caso.

Meta no es (probablemente) la única. Aunque en este caso la demanda es contra Meta, existen otras muchas en vigor que por ejemplo enfrentan a The New York Times con Microsoft y OpenAI. Esta última de hecho fue acusada de lo mismo que Meta por parte de ocho publicaciones del grupo editorial Alden Global en abril de 2024, aunque es cierto que en los últimos meses ha llegado a acuerdos con grupos editoriales como Associated Press, Axel Springer, Prisa y Le Monde para licenciar sus contenidos y así poder entrenar sus modelos de IA con esos datos de forma legítima. Mientras, Google tiene claro que para entrenar sus modelos va a coger todo lo que publiquemos en internet, y Perplexity no ha parado de hacer algo parecido y saquear la red de redes para entrenar sus modelos. No está claro si eso incluye obras protegidas por derechos de autor, pero parece difícil que no haya casos de que esas violaciones de copyright hayan ocurrido.

