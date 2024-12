ODIO, en mayúsculas, negrita y enlazado a la definición de la RAE de "odio" los audios de WhatsApp. Entiendo que se usen, son muy cómodos cuando quieres decir algo """"rápido"""" y tienes las manos ocupadas, pero si pensamos en el receptor, en la persona que tiene que escuchar tu podcast, la realidad es que el audio presenta ciertos problemas que no se pueden dejar de lado: se tiene que escuchar entero para conocer todo el contenido, no se puede buscar, no es conciso y, sobre todo, no siempre es posible escuchar un audio.

Este debate, el de audios sí y audios no, lo hemos tenido ya en alguna ocasión y hoy, como si un ser omnipotente, llámase Dios, llámese ingeniero de Meta, hubiera escuchado mis plegarias, he sido bendecido con la llegada de la última gran función de WhatsApp. Hablo, por supuesto, de la transcripción automática, función que ya he podido catar de primera mano. Y no, no vuelvo a escuchar una audio.

El problema de los audios. Son varios, pero el principal es que los mensajes de voz benefician enormemente al emisor, pero no al receptor. Un mensaje de audio corto bien podría ser un mensaje de texto de cuatro o cinco palabras (que se escriben en dos segundos). Un mensaje de voz largo podría ser una llamada que permita la comunicación bidireccional de manera instantánea. El asunto de ese audio de cinco minutos seguramente pueda averiguarse en una llamada de 30 segundos.

Además, a diferencia del texto, los audios permiten la divagación innecesaria fruto de un discurso improvisado y desestructurado. Eso hace que el mensaje central se diluya en anacolutos, digresiones, eeeeeh, mmm, un estornudo muy agradable de escuchar, el sonido de un coche o del viento, etc. Por no hablar de que no se pueden buscar usando el buscador de WhatsApp.

La transcripción. Para solucionar este problema, al menos de forma parcial, WhatsApp ha lanzado la transcripción automática. No está disponible para todos y su despliegue está siendo gradual, por lo que es posible que aún no esté disponible en tu terminal. Además, de estarlo, no estará activada por defecto. Para comprobarlo, ve a Ajustes > Chats y mira si aparece una opción llamada "Transcripción de mensajes de voz". Si aparece, actívala y descarga el paquete de idiomas, son alrededor de 130 MB. Si no, tocará esperar.

Activación de la transcripción de audios de WhatsApp | Imagen: Xataka

Cómo funciona. Una vez tengamos configurada y activada la transcripción, simplemente hay que esperar a recibir un audio por WhatsApp. Al hacerlo, simplemente hay que dejar pulsado el mensaje, luego pulsar en los tres puntitos y, finalmente, en "Transcribir". WhatsApp comenzará a convertir el audio a texto y lo mostrará debajo, como en un pequeño miniapartado.

Sería un puntazo que la transcripción fuese automática y/o con menos pasos, pero para ser una primera aproximación está estupendo. Para un audio de 30 segundos tarda alrededor de cuatro segundos en transcribir. Para otro más largo, de cerca de cuatro minutos, ha tardado alrededor de 10-15 segundos.

Forzando un acento más neutro y hablando más despacio, la transcripción es perfecta | Imagen: Xataka

¿Qué tal el rendimiento? No es perfecto ni mucho menos, pero lo hace bien. Yo tengo un acento cordobés bastante marcado, hablo rápido (podéis ver cualquier TikTok de Xataka para juzgar por vosotros mismos) y WhatsApp es capaz de transcribir mis audios sin problemas. Algunas veces, sobre todo en ciertos diptongos y conexiones rápidas entre palabras, falla u omite una de las palabras, pero nada que impida entender el mensaje general.

He probado el sistema con algunos amigos con diferentes acentos y la experiencia ha sido sorprendentemente positiva. En ningún caso perfecta, pero en todos los casos más que correcta y suficiente para conocer el contenido del audio sin escucharlo.

Se come algunas palabras cuando se encadenan rápido con las anteriores, pero funciona | Imagen: Xataka

WhatsApp se come algunas palabras cuando se pronuncian rápido y, como suele ser habitual, falla enormemente cuando se usan marcas comerciales, nombres de productos, etc. Transcribiendo una conversación sobre impresoras 3D, WhatsApp no ha sido capaz de entender palabras como Prusa o BambuLab, pero lo dicho, es totalmente normal. Lo que sí entiende sin problema son los insultos y palabrotas.

Y se indexa, a medias. Los audios no se transcriben automáticamente, pero una vez los transcribimos, dicha transcripción permanece en el chat y es tratada por WhatsApp como texto. ¿Qué quiere decir eso? Que podemos usar el buscador para encontrar audios. Con una condición.

La transcripción no se muestra completa, sino que, por defecto, solo aparecen las tres primeras líneas. Para que podamos encontrar la transcripción usando el buscador, la palabra que busquemos tiene que ser visible en esa vista previa. Este mensaje lo podremos encontrar si buscamos "centro" porque esa palabra aparece en la vista previa, pero no se encontrará si buscamos "azul", palabra que aparece al final.

A la izquierda, la vista previa que se indexa y puede buscar. A la derecha, la transcripción completa. El contenido que aparece tras la vista previa no se puede encontrar en el buscador | Imagen: Xataka

No es perfecto, pero gracias. Lejos de ser una transcripción sobresaliente como la que pueden conseguir herramientas como Whisper, lo que WhatsApp ha conseguido es más que suficiente para reducir la fricción de los audios. Escucharlos seguirá siendo la mejor forma de conocer todo el contenido por eso de la entonación y las emociones que solo la voz puede expresar, pero la transcripción nos permitirá hacer una lectura vertical, quedarnos con la idea general y ahorrarnos, si queremos, escuchar un podcast no solicitado.

