Google anuncia una avalancha de novedades de IA: refuerzan Gemini, vuelve Imagen 2 y nace Google Vids

El evento Cloud Next 2024 de Google que se ha celebrado hoy está siendo un verdadero despliegue de novedades en el ámbito de la inteligencia artificial aplicada a las plataformas en la nube de la compañía. Las novedades son muy numerosas, pero una cosa está clara: en Mountain View han estado (muy) ocupados.

Gemini 1.5 Pro puede oirte. La nueva versión del LLM de Google se actualiza con la opción de escuchar ficheros de audio que subas a la plataforma. Eso hace posible que Gemini te haga resúmenes de llamadsa de voz o de vídeos sin necesidad de recurrir a una transcripción previa. Gemini 1.5 Pro ya se anunció en febrero, pero ahora la pone a disposición del público vía su plataforma para desarrollo de aplicaciones de IA, Vertex AI.

En Xataka

Google está en una encrucijada. Y la culpa la tiene un Sundar Pichai que ha perdido algo crucial para triunfar

Imagen 2.0. La familia de modelos de IA generativa tiene un nombre engañoso porque no solo genera imágenes. Esa opción concreta le dio un buen disgusto a Google por su exagerada inclusividad se presentó hace meses, pero es ahora cuando vuelve a relanzarse como una alternativa en un campo cada vez más competido. Entre sus opciones están las de añadir contenido a una imagen existente (outpainting) o corregir y eliminar datos de otras (inpainting, como el Editor Mágico de los Pixel). Google hará uso de la opción SynthID para añadir marcas de agua en las imágenes generadas por IA.

Y puede generar vídeo y código. Como decimos, Imagen 2 es una familia de modelos de IA, y no solo genera imágenes, sino también vídeos. Así, es posible crear vídeos cortos de cuatro segundos a partir de prompts de texto. Y por si fuera poco, también incluye generador de código IA, en concreto CodeGemma, un modelo ligero que trata de ofrecer ayudas como las que ya proporciona por ejemplo GitHub Copilot.

Google Vids ofrece a los profesionales una forma distinta de presentar proyectos e ideas: con vídeos que además pueden ser generados con mucha ayuda por parte de Gemini.

Hola, Google Vids. Otra de las novedades destacadas es Vids, una herramienta que se une a la oferta de aplicaciones en la nube de Google Workspace. Estamos ante un editor de vídeo que está pensado para entornos empresariales, y que permite producir rápidamente vídeos que luego compartir en el trabajo. En Google lo conciben como una alternativa a las presentaciones de Powerpoint, pero aquí la empresa ofrece además la potencia de Gemini AI para que sea la inteligencia artificial la que cree un primer borrador del vídeo sobre el que trabajar. Puede crear un storyboard, un gruión, lo puede leer en alto o puede crear imágenes para usarlas en el vídeo. Para los responsables de la creación, la idea es trabajar como lo haríamos con una hoja de cálculo o un procesador de textos.

La IA conquista la nube de Google. En la empresa han querido integrar opciones de IA en todos sus productos, y han anunciado novedades en sus herramientas de analítica, bases de datos, ciberseguridad, plataforma IaaS (cómputo, comunicaciones), además de nuevas instancias para clientes como A3 Mega (basada en las NVIDIA H100) y la disponibilidad de las nuevas NVIDIA HGX B200 a principios de 2025.

Chrome se pone traje (blindado). El navegador web de Google acaba de anunciar la disponibilidad de una versión empresarial llamada Chrome Enterprise Premium. En esta edición, aún más ambiciosa que la que ya ofrecía para empresas, el navegador se convierte en una aplicación de suscripción (6 dólares por mes y usuario), pero añade más capacidades de seguridad para blindarse ante amenazas externas y evitar que posibles ataques puedan aprovechar vulnerabilidades en el navegador para colarse en las empresas.

Muchas opciones, pero con orientación empresarial. Las novedades son interesantes, pero todas ellas están orientadas a entornos empresariales. Es una forma de controlar el despliegue de esas funciones para que las cosas no se desmanden en el pasado. Está por ver si Google ofrece esas opciones como ofertas para usuarios finales en algún momento, pero puede que el Google I/O que se celebrará en mayo sea una buena oportunidad para la empresa para impulsar el uso de sus alternativas a plataformas de referencia como ChatGPT o Midjourney.

En Xataka | OpenAI se quedó sin datos para entrenar su IA. Así que transcribió un millón de horas de YouTube para GPT-4