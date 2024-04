OpenAI marcó un antes y un después con ChatGPT. El lanzamiento del famoso chatbot conversacional en noviembre de 2022 fue el punto de partida de una carrera de miles de millones de dólares por liderar el desarrollo de la inteligencia artificial. Pero la compañía dirigida por Sam Altman también quiere aterrizar en el mundo del vídeo con Sora.

Ahora bien, además de sus bondades, estas dos herramientas tienen un punto controvertido en común: no sabemos exactamente de dónde han salido todos los datos con los que han sido entrenadas. En el caso del generador de vídeos, OpenAI ha sido muy poco clara en este sentido, limitándose a decir que se han utilizado datos disponibles públicamente.

Un problema a la hora de entrenar modelos

“No estoy segura de eso”. Con estas palabras respondió recientemente la CTO de la compañía de IA, Mira Murati, sobre si habían utilizado datos de YouTube para entrenar al modelo de Sora. El CEO de YouTube, sin embargo, está seguro de que, si ese fuera el caso, OpenAI estaría ante una “clara infracción de los términos de servicio” de la plataforma.

La postura del ejecutivo nos llega de una reciente entrevista con Bloomberg. Preguntado sobre si cree que YouTube haya sido utilizado para entrenar a Sora, Neal Mohan respondió que no tiene información al respecto y añadió que una de las expectativas de los creadores de contenidos es que se cumplan los términos de servicio de la plataforma.

Imagen generada con Sora

En este sentido dijo que cierto contenido de YouTube, como el título del vídeo, el nombre del canal o el nombre del creador están expuestos a la tarea web scraping (raspado web) para que pueda aparecer en los motores de búsqueda, los términos no permiten la descarga de los vídeos o sus transcripciones.

La forma en la que se entrenan los modelos de IA de OpenAI no ha estado exenta de cierta polémica. Recientemente hemos visto a The New York Times demandar a Microsoft y OpenAI por utilizar “millones” de sus artículos para entrenar modelos de IA. Y esta tan solo una de la oleada de demandas que han aparecido.

Este escenario ha llevado a la compañía respaldada por Microsoft a impulsar acuerdos con grandes grupos editoriales para poder utilizar sus datos. Entre los más recientes podemos mencionar alianzas con Prisa Media (que incluye a medios como El País, As o Cinco Días), el periódico francés Le Monde y el banco de imágenes Shutterstock.

Imágenes | Christian Wiediger | OpenAI

