Cuando ChatGPT se lanzó al mercado, nadie se preguntó cómo había sido entrenado. OpenAI jamás ha sido transparente al respecto, pero ante las crecientes demandas por violación de copyright, la empresa ha comenzado a firmar acuerdos con proveedores de contenidos. El último afecta al grupo editorial español Prisa Media (incluidos El País, As o Cinco Días), y también a Le Monde, el diario francés.

Una alianza notable. El anuncio oficial de OpenAI se une a los que ya realizaron en julio de 2023 con Associated Press (AP) o en diciembre con Axel Springer. Según el texto, el acuerdo "permitirá a los usuarios de ChatGPT interactuar con los contenidos de alta calidad de Le Monde y Prisa Media sobre acontecimientos recientes en ChatGPT".

Pero destinada a un objetivo: entrenar sus modelos. En ese anuncio se deja un poco en segundo plano el que es probablemente el verdadero motivo de estos acuerdos: que OpenAI pueda aprovechar los ingentes contenidos de Prisa y de Le Monde para entrenar sus modelos. La mención a esa faceta se realiza brevemente en el comunicado de OpenAI, que confirma que "sus contenidos contribuirán al entrenamiento de nuestros modelos". La noticia de El País sobre el acuerdo ni siquiera menciona este apartado, algo que sí comentan claramente en Le Monde.

Qué notaremos en ChatGPT. Según indica OpenAI, en los próximos meses los usuarios de ChatGPT obtendrán respuestas en las que se ofrecerán enlaces de atribución y enlaces mejorados a los artículos originales, de modo que se podrá acceder fácilmente a las fuentes de información. Es algo que por ejemplo ya hemos visto gradualmente en chatbots como Copilot —basado en GPT-4, de OpenAI— o en Perplexity, que incluyen enlaces a fuentes desde las que se extrae información.

Pero la guerra con The New York Times sigue ahí. Estos acuerdos son importantes, pero OpenAI tiene una gran espina clavada: la de The New York Times, el diario más importante del mundo, que en diciembre demandó a Microsoft y OpenAI por aprovechar sus contenidos sin acreditar o enviarles tráfico.

En OpenAI no quieren más demandas. La empresa dirigida por Sam Altman afirmó que la demanda carecía de fundamento, y hace apenas unos días Microsoft registró una moción ante un tribunal federal para desestimar parte de la demanda. El proceso sigue pendiente, y estos acuerdos con estos grandres grupos editoriales pueden ser sin duda una forma de protegerse ante nuevas demandas similares a las del Times.

Una tendencia al alza. No se han detallado los términos económicos del acuerdo, como tampoco se revelaron los que ya tuvieron lugar en los pasados meses, pero al menos en el caso de Axel Springer sí se indicó que el acuerdo era válido "durante varios años". Otras empresas están llegando a acuerdos similares para poder entrenar sus modelos sin miedo a represalias legales. El mejor ejemplo es Google, que a finales de febrero pagó a Reddit 60 millones de dólares para ese objetivo.

Imagen | Roman Kraft

En Xataka | El Figure 01 deja en ridículo al “Tesla Bot”: este sorprendente robot humanoide es capaz de interactuar con humanos