Lo último de los creadores de TikTok es una IA de generación de vídeos. Los resultados son impresionantes

Que un modelo de inteligencia artificial sea capaz de crear imágenes realistas no es algo que a estas alturas nos sorprenda. Modelos como Midjourney, DALL-E 3 o Stable Diffusion son capaces de cosas impresionantes, pero cuando hablamos de generar vídeo... la cosa cambia. Hay modelos, como Pika o Morph, que consiguen resultados ciertamente correctos, pero bastante alejados de lo que, según ByteDance, empresa matriz de TikTok, puede conseguir el modelo que acaba de anunciar: MagicVideo-V2.

Vídeos realistas y, sobre todo, consistentes. En la web del proyecto hay algunos vídeos generados con esta inteligencia artificial y los resultados son buenísimos. No solo por el nivel de detalle, sino por la consistencia de las imágenes. Si sacamos la lupa podremos ver algunas costuras (véanse las patas del vídeo del elefante en el desierto), pero lo cierto es que las 94 imágenes que componen cada clip tienen una coherencia sensacional. Puedes ver algunas pruebas en el vídeo bajo estas líneas.

Cómo funciona. MagicVideo-V2 es un modelo que comprende cuatro módulos: texto a imagen (T2I); imagen a video (I2V); vídeo a vídeo (V2V) y un modelo de interpolación de frames. Según explican los creadores, el módulo T2I genera una imagen de 1.024 x 1.024 píxeles en función del prompt introducido. El módulo I2V anima la imagen, generando 32 fotogramas de 600 x 600 píxeles. En tercer lugar, el módulo V2V aumenta la resolución hasta los 1.048 x 1.048 píxeles y, finalmente, el módulo de interpolación amplía la secuencia a 94 fotogramas.

Comparativa de modelos de generación de vídeo.

Comparación con otros modelos. Como no podría ser de otra forma, los creadores también han publicado los resultados de haber usado el mismo prompt con diferentes modelos de generación de vídeos mediante inteligencia artificial. Según las imágenes provistas, el modelo de ByteDance consigue resultados mucho mejores que la competencia, si bien Stable Difussion Video y Pika en ciertos contextos se quedan muy a la par. La diferencia es los modelos de la competencia se pueden usar, mientras que MagicVideo-V2, al menos por ahora, no parece estar disponible para su prueba.

En Xataka

La nueva GPT Store tiene tres millones de chatbots personalizados. Ni uno solo querrá ser tu novio

Lejos de ser perfectos. Si bien es cierto que el estado del arte de esta tecnología es, cuanto menos, llamativo, los clips generados todavía quedan lejos de ser totalmente creíble. Además, generalmente son vídeos cortos que requieren bastante fuerza de cómputo para ser generados. No obstante, es una tecnología que no deja de mejorar y que, seguramente, nos acabe sorprendiendo (más) más pronto que tarde.

Imágenes | ByteDance

En Xataka | El año en el que la IA nos cambió la vida: 17 editores de Xataka nos cuentan cómo ha transformado su día a día