
El mundo lleva explorando las posibilidades de la inteligencia artificial (IA) desde la década de 1950, periodo de tiempo en el que el matemático Alan Turing sentó las bases de esta disciplina con su artículo ‘Computing Machinery and Intelligence’.
Sin embargo, en siete décadas de desarrollo, la sensación generalizada de que la IA está avanzando a pasos agigantados nunca había estado tan presente. Uno de los responsables de esta realidad ha sido OpenAI, que a finales del año pasado lanzó ChatGPT.
Por primera vez en la historia podíamos acceder a un chatbot capaz de mantener conversaciones en lenguaje natural, entender el contexto y generar textos plausibles de casi cualquier tema. Y, un factor que no podemos pasar por alto, sin una suscripción de por medio.
Estábamos presenciando el despliegue masivo de una herramienta de carácter disruptivo cuyo corazón era GPT-3.5, uno de los lenguajes de IA más avanzados del mundo. Lo que no sabíamos era que sus creadores ya estaban trabajando en una evolución llamada GPT-4.
¿Qué es GPT-4?
GPT-4 es nombre del más reciente modelo de lenguaje preentrenado de OpenAI, una compañía de inteligencia artificial que en el pasado ha lanzado versiones anteriores del modelo como GPT (2018), GPT-2 (2019), GPT-3 (2020) y GPT-3.5 (2022), y que también está detrás de otra herramienta muy popular, el generador de imágenes DALL·E.
Las capacidades de GPT-4 están directamente relacionadas al lenguaje y a su esencia multimodal (admite entradas de imágenes y texto, y emite salidas únicamente de texto). Es capaz de realizar con asombrosa precisión tareas como generación de texto en diferentes formatos y estilos, resúmenes, traducción, composición de canciones, respuestas a preguntas complejas y más.
El salto más notable de esta nueva versión llega de la mano de su capacidad para alcanzar un "rendimiento humano" en algunos escenarios. Sus respuestas e interacciones son más precisas y coherentes.
¿Cómo puedo probarlo?
Puede que te preguntes si ya puedes probar este nuevo modelo, y la respuesta es sí. GPT-4 ya está disponible para todos. En concreto, tenemos dos vías para experimentar con lo último de OpenAI:
La primera, suscribirse al servicio ChatGPT Plus, que tiene un precio de 20 dólares al mes, y que permite interactuar con las opciones del nuevo motor. Podremos seguir usando la versión básica y gratuita de ChatGPT, aunque cabe señalar que esta funciona con GPT-3.5.
La segunda, usar Bing con ChatGPT, el nuevo buscador de Microsoft que incluye un chatbot conversacional conectado a Internet. Este motor está basado también en GPT-4 y se puede usar de forma gratuita en dispositivos móviles y de escritorio, aunque tendremos que pedir acceso al servicio.
¿Cómo funciona GPT-4?
GPT-4, al igual que los modelos anteriores, por sí mismo es un modelo lenguaje con potencial para funcionar en diferentes sistemas y aplicaciones a través de su API. GPT-3, por ejemplo, ha sido implementado en aplicaciones comerciales como los procesadores de texto Jasper Ai y Canva Docs.
GPT-3.5, la versión responsable de popularizar los chatbots conversacionales avanzados, nos ha sorprendido con ChatGPT. GPT-4, va más allá de lo mencionado, llegando a aplicaciones como Duolingo, Khan Academy, Stripe, Be My Eyes, entre otras, gracias a la disponibilidad de su API para desarrolladores.
A nivel interno, GPT-4 ha sido entrenado con datasets con grandes cantidades de datos que le han servido para aprender y generar lenguaje similar al que manejamos los humanos. Detrás de este modelo se encuentra una técnica de procesamiento conocida como “Transformer”.
El objetivo de esta arquitectura, presentada por Google en 2017, es innovar en la implementación de capas que permiten adaptar el modelo para que sea eficaz y eficiente en un amplio abanico de tareas. OpenAI, en sus modelos GPT, la ha utilizado para implementar varias capas.
La arquitectura Transformer, a través de sus capas, convierte cada palabra en un vector numérico que permite al modelo procesar el texto de manera matemática, se encarga de procesarlo a través de una red neuronal y emplea mecanismos de atención para comprenderlo y abordar los problemas de falta de memoria de las redes neuronales recurrentes.
Pero no solo se trata de capas. En los modelos GPT también intervienen una gran cantidad de parámetros. Estos se conforman durante el proceso de aprendizaje automático y, en teoría, están directamente relacionados con el rendimiento y la precisión del modelo.
¿En qué se diferencia de GPT-3?
De acuerdo a la documentación de OpenAI, GPT-3 tiene 12 capas y 175.000 millones de parámetros. La principal diferencia entre el último modelo de OpenAI y su evolución, según recoge Wired, podría estar en los parámetros. GPT-4 puede haber sido entrenado con 100 billones de parámetros, casi 600 veces más que sus predecesor.
Cabe señalar que desde que la compañía dirigida por Sam Altman ha empezado alejarse del concepto sin ánimos de lucro que la vio nacer ha optado por no revelar ciertos detalles técnicos. En este sentido, el paper de GPT-4 no señala detalles minuciosos como la cantidad de parámetros que han sido utilizados en su entrenamiento.
El contraste entre un modelo y otro también se presenta por el lado de la ventana de contexto, es decir, la capacidad del modelo de absorber palabras de una vez que se mide en tokens (1.000 tokens son 750 palabras). GPT 3.5 admite hasta 4.096 tokens, mientras que GPT-4, de momento, puede procesar 8.192 tokens, que equivalen a unas 6.144 palabras.
También se encuentra su naturaleza "multimodal". Como decimos arriba, en lugar de trabajar únicamente con texto, GPT-4 también será capaz de admitir imágenes como entrada, aunque esto no está disponible actualmente. Según prometen, podremos subir imágenes para dar indicaciones de forma visual. Eso sí, los resultados siempre se nos presentarán en formato textual.
Además, el modelo da un enorme salto de rendimiento. Para medir sus capacidades, la compañía lo expuso a exámenes diseñados específicamente para humanos, pero sin hacer ajustes específicos para aprobarlos. Como señala en un documento, GPT-4 superó las pruebas satisfactoriamente, consiguiendo mejores resultados que los arrojados por GPT-3.5.
¿Bing funciona realmente con GPT-4?
A principios de febrero, Microsoft renovó Bing con un nuevo motor de búsqueda y una función de chat gracias a la utilización de una combinación de tecnologías propias y de OpenAI para enfrentarse en una batalla contra el gigante de Mountain View, Google. El interrogante después del evento presentación era si finalmente estábamos viendo a GPT-4 en acción. Lo cierto esta pregunta ha sido respondida. Efectivamente, Bing funciona con GPT-4.
Imágenes: Aideal Hwa |Rawpixel.com | OpenAI | Captura de pantalla ChatGPT | Microsoft
En Xataka: He jugado una partida de rol con ChatGPT y se ha montado una película digna de Oscar