Alguien le ha dado a Gemini 1.5 un vídeo suyo haciendo ejercicio. Es capaz de convertirse en todo un entrenador personal

Los chatbots multimodales que aceptan el vídeo como contenido a analizar dan una nueva dimensión a estas herramientas

Pesas
4 comentarios Facebook Twitter Flipboard E-mail

La introducción hace unos días de Gemini 1.5 pasó de puntillas por la actualidad tecnológica, pero puede que este modelo de IA de Google sea mucho más interesante de lo que podría pensarse a priori. Sobre todo, por su capacidad de análisis de vídeo, una de las características que demuestran que los chatbots multimodales —que aceptan vídeo, texto o imágenes como entrada—son una evolución prometedora de los ChatGPT del mundo.

Gemini, mira cómo hago ejercicio. Mckay Wrigley, un desarrollador de soluciones de IA, explicaba en Twitter cómo se grabó un vídeo de unos 21 minutos levantando pesas y luego cargó ese vídeo en Gemini para que lo analizara. El resultado fue sorprendente.

Mi entrenador personal es una IA. Este desarrollador le pidió a Gemini 1.5 que creara un fichero JSON con el nombre de cada ejercicio, el número de series, las repeticiones por ejercicio, el peso y, sobre todo, que generase una serie de recomendaciones basadas en el vídeo. Tras setenta segundos, lo hizo a la perfección. En su opinión, la idea funcionó de forma excepcional, y era una validación de que un sistema como este podría servir como un entrenador personal basado en IA.

Y se podría combinar con otros datos. De hecho según Wrigley a esa información se le podría añadir otra como algunos datos médicos, registros de nuestra dieta, fotos con el progreso y hacer así que este chatbot se adaptase perfectamente a este ámbito para crear un entrenador personal y dietista aún más interesante.

Un buen caso de uso para la GPT Store. Este tipo de aplicación da una idea de por dónde pueden acabar yendo los tiros en la GPT Store de OpenAI. Con ChatGPT Plus se tiene acceso a esa creación de chatbots personalizados, y uno podría desde luego analizar nuestros entrenamientos físicos para luego darnos consejos tanto a la hora de perfeccionar esos ejercicios como para ir variándolos y mejorar esas rutinas.

Los chatbots multimodales prometen. La introducción de Gemini 1.5 demostró que este tipo de opción multimodal puede ser muy relevante. El modelo puede además recibir como entrada cerca de 700.000 palabras de una vez (unas 30.000 líneas de código), además de hasta 11 horas de audio y una hora de vídeo para luego analizarlas. A partir de ahí las opciones son realmente amplias tanto a la hora de analizar esas entradas como de trabajar con ellas.

Analiza y resúmeme este vídeo. Esa capacidad se demuestra fácilmente en Gemini 1.5 al pedirle que analice cualquier vídeo de YouTube para que nos lo resuma en unos cuantos puntos clave. Nosotros lo intentamos con un vídeo de nuestro canal de Xataka, pero el español de momento no está soportado, así que probamos con uno de los últimos vídeos de MKBHD. En apenas 10 segundos hizo un resumen notable del contenido.

Imagen | John Arano

En Xataka | Hemos pedido a dos nutricionistas que evalúen a ciegas un menú semanal creado con GPT-4. Ha salido muy bien parado

Inicio