GPT-4 llegará la semana que viene según Microsoft. Y su gran novedad es que será "multimodal"

Esta semana cuatro ingenieros de Microsoft en su división de Alemania organizaron un evento dedicado a la revolución que los LLM (Large Language Models) como GPT plantean en la empresa. Como parte de esa conferencia, dieron por sorpresa detalles de la esperada nueva versión del modelo de OpenAI.

GPT-4. Cuando GPT-3 apareció en 2020 lo hizo en forma de beta privada. Eso evitó que aquel modelo pudiera demostrar su capacidad, pero en 2022 la aparición de ChatGPT —basado en una iteración de GPT-3— lo cambió todo. Hace meses que se habla de lo que nos espera con GPT-4, y el CTO de Microsoft en Alemania, Andreas Braun, afirmó según Heise Online que este motor llegará la próxima semana.

En Xataka

Por la gloria de Turing, ¿por qué es tan difícil definir qué es la inteligencia artificial? (Captcha 1x01)

Kosmos-1. La llegada de GPT-4 parecía especialmente cercana tras el anuncio de Microsoft a principios de marzo del lanzamiento de Kosmos-1, un Multimodal Large Language Model (MLLM) que no solo responde a prompts de texto, sino también a imágenes. Eso hace que en cierta forma se comporte como Google Lens y sea capaz de extraer información y contexto a partir de una imagen.

Más grande, mejor. Una de las características claras que se esperan de GPT-4 es que disponga de un mayor tamaño que GPT-3. Mientras que este dispone de 175.000 millones de parámetros, se habla de que GPT-4 tendrá 100 trillones de parámetros, algo que Sam Altman, CEO de AI, explicaba que "es una completa estupidez". Aún así lo que es seguro es que será más grande, y eso permitirá que sea capaz de responder a situaciones más complejas y generar respuestas aún más "humanas".

¿Multimodal? Esa es una de las grandes novedades —si es que no es la mayor— de GPT-4, un modelo multimodal que como ya se perfilaba en Kosmos-1 permitirá que la entrada sea de diversos fuentes o "modalidades" como texto —lo que se usa en ChatGPT—, imágenes, vídeo, voz hablada u otros formatos.

Dadme datos, que ya los analizo yo. Estos modelos usan aprendizaje profundo y procesamiento del lenguaje natural para entender las relaciones y correlaciones entre esos distintos tipos de datos. Al combinar múltiples "modalidades", el modelo de inteligencia artifiical puede mejorar su precisión y proporcionar un análisis de datos complejos.

Un ejemplo: el vídeo. Una aplicación práctica inmediata de estos modelos es el del vídeo. Con GPT-4 teóricamente se podrá dar como entrada un vídeo y su audio asociado para que el motor entienda la conversación e incluso las emociones de quienes intervienen en él. También podrá reconocer objetos (o personas) y extraer información. Así, uno podría obtener un resumen de una película o de un vídeo de YouTube como ahora obtenemos resúmenes de reuniones.

Ahorrando tiempo. Uno de los ingenieros de Microsoft indicó cómo este tipo de motor sería de gran ayuda en centros de atención de cliente, en los que GPT-4 podría transcribir las llamadas y luego resumirlas, algo que normalmente tienen que hacer los agentes humanos. Según sus estimaciones, esto podría ahorrarle 500 horas de trabajo al día a un cliente de Microsoft en Holanda que recibe 30.000 llamadas al día: el prototipo fue creado en dos horas, un desarrollador le dedicó un par de semanas, y el resultado fue aparentemente un éxito.

GPT-4 seguirá cometiendo errores. Aunque el nuevo modelo será sin duda más potente, en Microsoft quisieron dejar claro que la inteligencia artificial no siempre contestará de forma correcta y será necesario validar las respuestas.

Por si acaso, seamos cautos. La expectación con GPT-4 es enorme, y de hecho hasta el propio Sam Altman, CEO de OpenAI, ya dejó claro hace semanas que industria y usuarios deberíamos rebajar esas expectativas porque "la gente está pidiendo a gritos que se la decepcione, y eso es lo que pasará".

En Xataka | "No podía irme a dormir viendo que crecía tanto": hablamos con el creador de Abbreviame, el bot viral basado en ChatGPT