Google anuncia Veo e Imagen 3 para crear imágenes y vídeos por IA. No es una revolución, pero sigue la estela de Midjourney y Sora

Google ha aprovechado su evento I/O 2024 para anunciar nuevas herramientas de IA generativa: sus nombres son Veo e Imagen 3, y hacen lo que presuponen sus nombres. La primera genera vídeo, la segunda genera imágenes.

Entran así a competir con Midjourney, el futuro Sora y compañía, llevando al territorio creativo sus logros hasta la fecha con Gemini. Ninguno es particularmente revolucionario, pero permite a Google dar un gran paso para mantenerse en la carrera de la generación multimedia sintética.

Imagen 3. El modelo de texto a imagen más avanzado de la empresa, la evolución de Imagen 2.0, puede producir imágenes fotorrealistas, según su presentación y los ejemplos compartidos. Ha mejorado la interpretación del lenguaje natural, y sobre todo, la capacidad de añadir detalles muy específicos a partir de prompts muy extensos.

Esto, según indica Google, permite ofrecer una gama de estilos más amplia y una mayor precisión en la representación visual de la solicitud del usuario. También ha perfeccionado la representación de texto en imágenes para poder lanzar mensajes personalizados con una palabra, una marca, una frase...

Veamos algunos ejemplos mostrados por Google:

Wm Natural Language Elephant Amigurumi Walking In Savanna A Professional Photograph Blurry Background

Un elefante amigurumi caminando por la sabana creado con Imagen 3. Imagen: Google.

Wm Photorealism View From Above Of Beautiful River Canyon With Trees Showcasing Its Stunning Natural Beauty With Green Mountains And Blue Waters The Photo Captures The Vastness Of Nature S Creation In The Style Of Its Creation

Un paisaje fotorrealista. Imagen: Google.

Wm Photorealism A Close Up Of A Sleek Wolf Perched Regally In Front Of Gray Background In A High Resolution Photograph With Detailed Fine Details Isolated On A Plain Stock Photo With Color Grading In The Style Of A Hyper Realistic Style

Otra imagen fotorrealista, esta vez de un lobo, creada con Imagen 3. Imagen: Google.

Wm Text Rendering Word Light Made From Various Colorful Feathers Black Background

Texto representado con plumas en Imagen 3. Imagen: Google.

Veo. El modelo de vídeo generativo más grande de Google, claramente evolucionado desde sus orígenes, permite crear clips en resolución 1080p de más de un minuto de duración. Google ha destacado una comprensión profunda del lenguaje natural y de la semántica para producir vídeos que reflejen con precisión lo que el usuario demanda.

También es capaz de entender y aplicar términos cinematográficos, como "timelapse" o "tomas aéreas de paisajes". Es decir: no solo crea el contenido que pidamos, sino que también aplica las técnicas y estilos que deseemos. Y algo más: da un salto importante en cuanto a simulación de la física del mundo real. También renderiza mejor las secuencias en alta definición.

Algunos ejemplos mostrados por Google durante la presentación de Veo. Imagen: Google.

El aspecto ético y legal. Google asegura haber implementado varias medidas de seguridad, filtros y directrices para garantizar que el desarrollo y despliegue de sus modelos sean "responsables".

Por ejemplo, usando SynthID, una herramienta desarrollada por la propia Google que incorpora marcas de agua digitales e imperceptibles para etiquetar el contenido generado por IA.

Disponibilidad. Tanto Veo como Imagen 3 están disponibles en un acceso anticipado privado para algunos creadores seleccionados en VideoFX e ImageFX, existiendo una lista de espera para acceder a ellas. Google planea expandir capacidades de Veo a YouTube Shorts y otros productos.

Esto implica una fuerte vocación de satisfacer a creadores y ofrecerles sus propios productos integrados en estas plataformas.

Google también ha dejado ver un pequeño anticipo de su Music AI Sandbox, un conjunto de herramientas para la creación de canciones y ritmos, apuntando directamente a los artistas.

En Xataka | 36 funciones y cosas que puedes hacer con Google Gemini

Imagen destacada | Google, Mockuuups Studio, Xataka