Sora es una herramienta IA alucinante. Pero una vez más no sabemos de dónde salen los vídeos con los que se ha entrenado

A Google le duró muy poco su particular fiesta con Gemini 1.5. Apenas dos horas después Sam Altman dejaba ese anuncio mordiendo el polvo, porque su empresa presentaba su nuevo modelo de IA, Sora.

El lanzamiento ha generado un sinfín de reflexiones y comentarios en medios redes sociales, y con razón: la calidad de los vídeos cortos creados con Sora es espectacular y su impacto en el futuro de la creación de contenidos parece notable.

Pero como ya sucedió con modelos de inteligencia artificial generativa como ChatGPT o DALL-E, la opacidad respecto a los datos usados para el entrenamiento es total. ¿Con qué contenidos ha entrenado OpenAI a Sora? ¿Con vídeos de YouTube? ¿De TikTok? ¿De emisiones televisivas en abierto?

En Xataka

OpenAI ha usado millones de textos para entrenar a ChatGPT. El problema es que muchos de ellos tienen copyright

En la empresa no lo aclaran, pero esto se ha convertido en una práctica habitual en una industria que prefiere pedir perdón —y tampoco lo hace— que pedir permiso. Eso ha generado ya demandas importantes contra OpenAI y otras empresas como la desarrolladora de Stable Diffusion o Microsoft con su GitHub Copilot, y plantea conflictos legales similares en el ámbito de los contenidos de vídeo.

Aunque no ha dado detalles sobre qué contenidos han utilizado para entrenar este modelo, la investigación científica que han publicado sí que da detales sobre cómo han entrenado el modelo con esos contenidos, sean cuales sean.

Descomponiendo vídeos en el espacio y el tiempo

Sora se inspira en los Grandes Modelos de Lenguaje (LLMs) que ofrecen ciertas prestaciones a partir de contenidos extraídos de internet. Mientras que los LLMs se alimentan de tokens (palabras o pequeños grupos de palabras) de texto, Sora hace uso de los llamados "zonas visuales" (visual patches), una técnica que ya se ha usado en el pasado para trabajar con análisis de vídeo.

Lo que hace OpenAI es convertir vídeos en esas zonas comprimiéndolos y descomponiéndolos de forma consecutiva en zonas que evolucionan a lo largo del tiempo. Como indican los investigadores, "las zonas son representaciones efectivas y altamente escalables para entrenar modelos generativos a partir de diversos tipos de vídeos e imágenes".

Con ese esquema Sora es además capaz de ser entrenado con vídeos e imágenes de diferentes resoluciones, duración y relación de aspecto. Precisamente haber sido entrenado con vídeos con distinto formato —sin recortarlos y trabajar por ejemplo con vídeos cuadrados— hace que pueda también generar vídeos para distintos formatos de pantalla con el encuadre correcto.

A partir de esa información Sora, que es un modelo de transformer —mismo concepto usado para generación de texto y de imagen— de difusión, está entrenado para predecir zonas "limpias"

Hay otro elemento clave en ese proceso: la comprensión del lenguaje. Como explican en la investigación, no basta con meter vídeos y que Sora los analice: necesita saber qué está pasando en esos vídeos, y ahí entran en juego las herramientas capaces de detectar y retitular/subtitular fotogramas.

De hecho, han utilizado las mismas que usaron en DALL-E 3, generando subtítulos de texto para todos los vídeos de su conjunto de entrenamiento. Los investigadores destacan que "el entrenamiento con subtítulos de vídeo altamente descriptivos mejora la fidelidad del texto, así como la calidad general de los vídeos".

Esto es alucinante, pero cuidado con el copyright

Los vídeos mostrados por OpenAI en ese estudio publicado online son alucinantes —os recomendamos echar un vistazo, hay de todo tipo—, pero persiste la misma pregunta que nos hacíamos inicialmente. ¿De dónde proceden los vídeos con los que se ha entrenado este modelo?

Las fuentes no se aclaran, pero aquí el peligro para OpenAI es acabar enfrentándose a demandas importantes por parte de quienes poseen los derechos de autor de esos contenidos.

Google, por ejemplo, podría demandar a OpenAI si se descubre que los vídeos de YouTube han sido aprovechados para entrenar a Sora. Es una posibilidad plausible, sobre todo considerando que ambas compiten en el campo de la IA.

Pero además hay otros riesgos a la vista. Si los deepfakes de imagen —que se lo digan a Taylor Swift— y de vídeo ya eran convincentes con las herramientas disponibles hasta ahora, modelos como Sora pueden llevar este tipo de problemas a su máximo exponente. Será algo con lo que tendremos que lidiar todos, pero puede que también las empresas que como OpenAI ponen en nuestras manos dicha capacidad.

Imagen | OpenAI

En Xataka | El año en el que la IA nos cambió la vida: 17 editores de Xataka nos cuentan cómo ha transformado su día a día