Lumiere es el argumento de Google para ganar la carrera del vídeo generado por IA. El problema es que no podrás usarlo

  • La herramienta es capaz de generar vídeos de cinco segundos y resolución de 1.024 x 1.024 píxeles

  • No habrá versión pública de Lumiere, y Google no ha detallado con qué contenidos ha entrenado el modelo

Fotos
2 comentarios Facebook Twitter Flipboard E-mail

Los modelos de IA generativa funcionan sorprendentemente bien a la hora de generar texto o imágenes, pero, ¿qué pasa con el vídeo? Hasta ahora ese tipo de contenido se le había resistido mucho a este tipo de sistemas, pero Google acaba de presentar su propuesta, y lo cierto es que la cosa promete.

Lumiere. Así se llama ese nuevo modelo de IA que Google ha presentado y que hace uso de un nuevo sistema llamado Space-Time-U-Net (STUNet). Se trata de un modelo de difusión que trata de averiguar dónde están los objetos en un vídeo y cómo se mueven simultáneamente y cambian a lo largo del tiempo. Eso, revela Ars Technica, permite que Lumiere cree el vídeo de una sola vez, en lugar de generar pequeños fotogramas para luego unirlos.

Un salto de calidad. Las primeras herramientas que aparecieron para la generación de vídeos a través de modelos de IA eran, como poco, limitadas, pero en los últimos tiempos han ido apareciendo avances llamativos que poco a poco van desplegándose masivamente.

Conejos en la chistera. Al proceso de creación se añaden algunos extras. Así, es posible generar vídeos a partir de un prompt de texto, pero también convertir imágenes estáticas en vídeos, generar vídeos con un estilo específico a partir de una imagen de referencia, aplicar tareas de edición de vídeo mediante prompts de texto, crear cinemagraphs animando solo ciertas zonas de la imagen, o también ofrecer opciones de inpainting para, por ejemplo, cambiar el tipo o color del vestido que una persona lleva en el vídeo.

Cinco segundos. Este sistema es además capaz de generar 80 fotogramas para obtener vídeos de cinco segundos con una tasa de 16 fotogramas por segundo y una resolución de 1.024 x 1.024 píxeles por fotograma. Nada mal para esta primera iteración; Google de hecho califica esos fotogramas como de "baja resolución".

A vueltas con la transparencia. Los responsables del estudio no han ofrecido detalles sobre el contenido con el que han entrenado este modelo, algo que sigue siendo un problema en este ámbito. Simplemente señalan que "entrenamos nuestro modelo Text To Video (T2V) con un conjunto de datos consistente en 30 millones de vídeos que incluyen una descripción en texto".

No podrás usarlo. El problema, como con otros proyectos en este ámbito, es que se trata de un estudio de investigación que no estará disponible para uso general y público. Es algo razonable que permite a Google evitar problemas de derechos de autor o de hipotéticos usos peligrosos en el ámbito de la desinformación, la ciberseguridad o la privacidad.

En Xataka: Bing Chat ya no se llama Bing Chat. Ahora se llama Copilot, y se confirma como la gran apuesta de futuro de Microsoft

Inicio