Whisper V3 ha pasado desapercibido, pero es la herramienta más útil y accesible que recién ha presentado OpenAI

Sam Altman casi no le dedicó tiempo durante el OpenAI DevDay. Toda la atención se centró en GPT-4 Turbo y los GPTs. Sin embargo, para quienes no pagamos por la inteligencia artificial ni nos hemos acostumbrado todavía a crear con los prompts, hay una herramienta mucho más sencilla y efectiva.

Hablamos de Whisper, que esta semana ha alcanzado su tercera generación. Es el modelo de reconocimiento de voz que no solo entiende y traduce decenas de idiomas, sino que es capaz de transcribir conversaciones enteras con una precisión sorprendente.

En Xataka

He usado Whisper para transcribir una entrevista: es la herramienta que llevaba esperando desde hace años

Al contrario que ChatGPT o DALL·E, Whisper V3 es open source. Su código está publicado ya en Github y puede ser utilizado libremente a través de Hugging Face o Replicate. Utilizar Whisper es tan sencillo como subir el archivo de audio y darle a ejecutar.

Whisper V3 acierta hasta las comas

Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y con más de 4 millones de horas de audio pseudoetiquetado. En comparación con el modelo anterior, Whisper ahora tiene entre un 10 y un 20% menos de errores. En el caso del español, la tasa de errores se sitúa por debajo del 5%, siendo uno de los idiomas que mejor entiende este modelo.

En mi caso he estado utilizando Whisper V2 durante meses para ayudarme a transcribir entrevistas, tanto en inglés como en español. He probado rápidamente Whisper V3 y el resultado es todavía mejor. El resultado es prácticamente el mismo, porque al final Whisper V2 ya entendía muy bien la voz, pero la diferencia con Whisper V3 es que acierta hasta en las pausas de la conversación, colocando las comas y los puntos de manera mucho más acertada.

Whisper puede ser utilizado directamente como traductor o para transcribir un idioma. Es también capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación. Al ser un modelo de lenguaje, el objetivo de OpenAI es que otras empresas o desarrolladores lo utilicen para sus propios asistentes de voz.

Como en generaciones anteriores, Whisper está disponible en varios tamaños para incluirlo en distintas aplicaciones. Desde una versión minúscula que necesita menos de 1 GB de VRAM y está entrenada con 39 millones de parámetros hasta el modelo large, entrenado con 1.550 millones de parámetros y unos requisitos de unos 10 GB de VRAM. Este modelo large es el disponible directamente a través de Hugging Face o Replicate.

Transcribir de audio a texto hasta la fecha siempre había sido un desastre. La mayoría de herramientas gratuitas daban demasiados fallos, con palabras mal colocadas, cifras que no eran correctas o expresiones que faltaban. Al final necesitabas repasar todo el audio detenidamente, por lo que no ahorrabas mucho tiempo.

Con Whisper V2 fue la primera vez que el resultado de una herramienta gratuita me convenció lo suficiente. Con Whisper V3 tengo la sensación de que este modelo de lenguaje ha llegado para quedarse. Tiene justo lo que pedimos a la tecnología: que sea sencillo de utilizar, rápido, efectivo y además libre. Altman, queremos más modelos como este.

Imagen | Zac Wolff

En Xataka | Spotify está doblando sus podcasts con IA y las voces de sus creadores. El resultado es alucinante