OpenAI presenta Sora, su nueva herramienta para generar vídeo a partir de texto: otro salto en el desarrollo de la IA

  • Sora puede generar vídeos de hasta 60 segundos a partir de indicaciones textuales

  • El modelo promete tener una enorme capacidad para respetar las indicaciones del prompt

La carrera por liderar el desarrollo de la inteligencia artificial se está poniendo más que interesante. Pocas horas después de que Google anunciara Gemini 1.5, una nueva versión de su modelo multimodal destinada a competir en mejores condiciones con GPT-4, OpenAI ha revelado su primer modelo de generación de vídeos.

Estamos hablando de Sora, una herramienta que en su actual versión experimental permite generar vídeos de hasta 60 segundos. La compañía liderada por Sam Altman asegura que el modelo es capaz de generar escenas realistas, adhiriéndose a las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas.

La IA generativa de OpenAI ahora también hace vídeos

Si nos detenemos un instante a pensar en cómo la IA generativa está avanzando, podríamos concluir en que lo está haciendo a velocidad de vértigo. En 2021 nos sorprendíamos con la primera versión de DALL·E y “habilidad” para crear un aguacate-silla. Y en este momento vivimos en un presente donde los generadores de vídeo son una realidad.

Sora funciona esencialmente con la misma mecánica que los generadores de texto a imagen. Utilizamos un prompt (indicación textual) para describir lo que queremos que el modelo genere. Aquí, ciertamente, entra en juego la habilidad del usuario para generar prompt precisos para el modelo en cuestión. Veamos el prompt del vídeo superior generado por Sora.

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about”.

Como podemos ver, se ha conseguido una sorprendente escena de vídeo, incluso con cambios de plano, pero gracias a indicaciones muy precisas. Se describe minuciosamente la apariencia de la mujer que camina en las calles de Tokio, y se brindan detalles sobre todo lo que le rodea. Desde las luces de neón brillantes hasta la humedad reflectante del suelo.

El modelo, explican, es capaz de generar escenas complejas con múltiples personajes. Pero hay más, también se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno. “El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, dice la compañía.

OpenAI añade que todos los vídeos publicados en la publicación de blog del anuncio de este nuevo modelo no han sido editados. Si tenemos en cuenta lo que la compañía asegura, estamos realmente ante una herramienta prometedora, aunque tendremos que probarla directamente para sacar conclusiones sobre sus capacidades.

La compañía sí advierte que, como cualquier modelo de IA, Sora también tiene sus propias limitaciones e inconvenientes. Dice que “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”. Ahora bien, tendremos que esperar para poder utilizar este nuevo modelo.

En este momento se encuentra disponible únicamente para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio. No obstante, señalan que estará disponible en el catálogo de productos de OpenAI, pero no antes de que se tomen varias medidas para garantizar la seguridad de los usuarios.

Imágenes: OpenAI

En Xataka: Sam Altman habló de invertir siete billones de dólares en chips. Es una barbaridad, pero ha explicado mejor la cifra

Ver todos los comentarios en https://www.xataka.com

VER 10 Comentarios

Portada de Xataka