La verdadera revolución de GPT-4o es poder hablar con las máquinas como si nada

Hace años que intentamos hablar con las máquinas. Y digo bien. Intentamos. Siri, Alexa y el asistente de Google han demostrado que la interacción por voz podía tener sentido, pero solo en escenarios muy específicos. GPT-4o cambia eso totalmente.

OpenAI lo dejó claro ayer con una serie de demostraciones en vídeo en las que se veía cómo empleados de la compañía interactuaban con el renovado ChatGPT. Esta vez, eso sí, nada de texto, nada de teclados, nada de escribir algo en un ordenador.

Esta vez todo lo que hacían era hablar.

Las demos nos acercaron más que nunca al futuro que nos pintaba 'Her', la célebre película de Spike Jonze de 2013. La voz de ChatGPT es, salvando las distancias, la que Scarlett Johanson ponía a la inteligencia artificial en la película. Cercana, emotiva, racional e incluso seductora. Sorprendentemente similar a una voz humana por los cambios de entonación y la capaz de mostrar una expresividad que hasta ahora no estaba demasiado lograda en las voces sintéticas.

Captura De Pantalla 2024 05 14 A Las 12 41 34

El logro de OpenAI es realmente notable, sobre todo por reducir la latencia. Como explican en el anuncio oficial, las latencias medias de GPT-3.5 (2,8 segundos) y GPT-4 (5,4 segundos al ser más avanzado y necesitar más recursos) eran elevadas. En GPT-4o esa latencia media es de 0,32 segundos, y puede ser aún más baja, de hasta 0,232 segundos.

Lo han hecho hasta tal punto que la sensación es que ChatGPT responde inmediatamente, casi "sin pensar", y siempre de forma natural y entonando de forma apropiada.

La síntesis de voz, la capacidad de comprender la voz del usuario —veremos cómo acaba funcionando con acentos y formas de hablar distintas— y esa bajísima latencia (la velocidad de respuesta es casi instantánea) hacen que de repente podamos hablar con las máquinas.

Repito. Hacen que podamos hablar con las máquinas.

Las implicaciones de un salto como este pueden ser enormes, sobre todo a la hora de hacer algo clave para la popularización de una tecnología: la hacen accesible. Es cierto que escribir en un teclado virtual o físico para preguntarle algo a ChatGPT está al alcance de cualquiera, pero si además eliminas esa barrera y puedes hablar y acelerar la interacción, toda la experiencia mejora... o tiene la capacidad de hacerlo.

Captura De Pantalla 2024 05 14 A Las 12 39 08

Las demostraciones de OpenAI dejaron eso claro: ChatGPT era capaz de expresar sarcasmo, de hablar más rápido o más despacio, de hablar en otros idiomas —la traducción en tiempo real está a nuestro alcance—, O de mostrar emociones, aunque sean artificiales (como en el vídeo del perro).

El alcance es potencialmente ilimitado, y afecta a campos como la enseñanza, pero desde luego también en nuestra propia relación con las máquinas. Lo que ya nos adelantó Replika —y mucho antes, hace una década, la citada película 'Her'— ahora se vuelve más factible.

Captura De Pantalla 2024 05 14 A Las 12 33 03

De repente nos encontramos con una inquietante realidad: una máquina habla de forma tan natural y creíble que puede acabar hacernos amiga de ella... o enamorándonos. Es curioso: Sam Altman ya mencionaba exactamente eso en 2016.

Está claro que sabía muy bien de lo que estaba hablando.

Imagen | OpenAI

En Xataka | Apple está llegando tan tarde la explosión de la IA que según Gurman está negociando con un aliado insospechado: OpenAI

La verdadera revolución de GPT-4o es poder hablar con las máquinas como si nada

El nuevo modelo de IA generativa de OpenAI es una evolución que da un salto cualitativo en su capacidad de interactuar por voz

Explora en nuestros medios

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios