ODIO, en mayúsculas, negrita y enlazado a la definición de la RAE de "odio" los audios de WhatsApp. Entiendo que se usen, son muy cómodos cuando quieres decir algo """"rápido"""" y tienes las manos ocupadas, pero si pensamos en el receptor, en la persona que tiene que escuchar tu podcast, la realidad es que el audio presenta ciertos problemas que no se pueden dejar de lado: se tiene que escuchar entero para conocer todo el contenido, no se puede buscar, no es conciso y, sobre todo, no siempre es posible escuchar un audio.
Este debate, el de audios sí y audios no, lo hemos tenido ya en alguna ocasión y hoy, como si un ser omnipotente, llámase Dios, llámese ingeniero de Meta, hubiera escuchado mis plegarias, he sido bendecido con la llegada de la última gran función de WhatsApp. Hablo, por supuesto, de la transcripción automática, función que ya he podido catar de primera mano. Y no, no vuelvo a escuchar una audio.
El problema de los audios. Son varios, pero el principal es que los mensajes de voz benefician enormemente al emisor, pero no al receptor. Un mensaje de audio corto bien podría ser un mensaje de texto de cuatro o cinco palabras (que se escriben en dos segundos). Un mensaje de voz largo podría ser una llamada que permita la comunicación bidireccional de manera instantánea. El asunto de ese audio de cinco minutos seguramente pueda averiguarse en una llamada de 30 segundos.
Además, a diferencia del texto, los audios permiten la divagación innecesaria fruto de un discurso improvisado y desestructurado. Eso hace que el mensaje central se diluya en anacolutos, digresiones, eeeeeh, mmm, un estornudo muy agradable de escuchar, el sonido de un coche o del viento, etc. Por no hablar de que no se pueden buscar usando el buscador de WhatsApp.
También tienen ventajas, tal y como abordamos en este artículo. Las puedes escuchar más abajo si quieres. Son solo cuatro minutos, muy cómodo, como los audios de WhatsApp.
La transcripción. Para solucionar este problema, al menos de forma parcial, WhatsApp ha lanzado la transcripción automática. No está disponible para todos y su despliegue está siendo gradual, por lo que es posible que aún no esté disponible en tu terminal. Además, de estarlo, no estará activada por defecto. Para comprobarlo, ve a Ajustes > Chats y mira si aparece una opción llamada "Transcripción de mensajes de voz". Si aparece, actívala y descarga el paquete de idiomas, son alrededor de 130 MB. Si no, tocará esperar.

Cómo funciona. Una vez tengamos configurada y activada la transcripción, simplemente hay que esperar a recibir un audio por WhatsApp. Al hacerlo, simplemente hay que dejar pulsado el mensaje, luego pulsar en los tres puntitos y, finalmente, en "Transcribir". WhatsApp comenzará a convertir el audio a texto y lo mostrará debajo, como en un pequeño miniapartado.
Sería un puntazo que la transcripción fuese automática y/o con menos pasos, pero para ser una primera aproximación está estupendo. Para un audio de 30 segundos tarda alrededor de cuatro segundos en transcribir. Para otro más largo, de cerca de cuatro minutos, ha tardado alrededor de 10-15 segundos.

¿Qué tal el rendimiento? No es perfecto ni mucho menos, pero lo hace bien. Yo tengo un acento cordobés bastante marcado, hablo rápido (podéis ver cualquier TikTok de Xataka para juzgar por vosotros mismos) y WhatsApp es capaz de transcribir mis audios sin problemas. Algunas veces, sobre todo en ciertos diptongos y conexiones rápidas entre palabras, falla u omite una de las palabras, pero nada que impida entender el mensaje general.
He probado el sistema con algunos amigos con diferentes acentos y la experiencia ha sido sorprendentemente positiva. En ningún caso perfecta, pero en todos los casos más que correcta y suficiente para conocer el contenido del audio sin escucharlo.

WhatsApp se come algunas palabras cuando se pronuncian rápido y, como suele ser habitual, falla enormemente cuando se usan marcas comerciales, nombres de productos, etc. Transcribiendo una conversación sobre impresoras 3D, WhatsApp no ha sido capaz de entender palabras como Prusa o BambuLab, pero lo dicho, es totalmente normal. Lo que sí entiende sin problema son los insultos y palabrotas.
Y se indexa, a medias. Los audios no se transcriben automáticamente, pero una vez los transcribimos, dicha transcripción permanece en el chat y es tratada por WhatsApp como texto. ¿Qué quiere decir eso? Que podemos usar el buscador para encontrar audios. Con una condición.
La transcripción no se muestra completa, sino que, por defecto, solo aparecen las tres primeras líneas. Para que podamos encontrar la transcripción usando el buscador, la palabra que busquemos tiene que ser visible en esa vista previa. Este mensaje lo podremos encontrar si buscamos "centro" porque esa palabra aparece en la vista previa, pero no se encontrará si buscamos "azul", palabra que aparece al final.

No es perfecto, pero gracias. Lejos de ser una transcripción sobresaliente como la que pueden conseguir herramientas como Whisper, lo que WhatsApp ha conseguido es más que suficiente para reducir la fricción de los audios. Escucharlos seguirá siendo la mejor forma de conocer todo el contenido por eso de la entonación y las emociones que solo la voz puede expresar, pero la transcripción nos permitirá hacer una lectura vertical, quedarnos con la idea general y ahorrarnos, si queremos, escuchar un podcast no solicitado.
Imagen de portada | Xataka
En Xataka | Mi grupo principal de WhatsApp es ahora una "Comunidad". Ha sido lo mejor que le ha pasado
Ver 40 comentarios
40 comentarios
allfreedo
Pagaría una subscripción premium de WhatsApp cuya única diferencia fuese impedir que otros contactos me puedan enviar audios. 10€ al mes sin pensármelo. Y 20€ si cada vez que alguien intenta mandarme un audio lo bloquea y lo insulta como un argentino.
Vamos a dejar una cosa clara: enviar audios es UNA FALTA DE RESPETO.
La comodidad de enviar un audio sin perder tiempo en escribir implica hacerle perder tiempo a la otra persona para escuchar tu audio, además en repetidas ocasiones si lo que le envías son datos que tenga que consultar varias veces, y mucho más si mandas varios audios seguidos y le obligas a escucharlos todos para buscar esa información.
joseduarte2
El auge de los audios hizo inútil uno de los gadgets que más me llamó la atención en su momento. Los smartwatchs, si estoy haciendo algo girar la muñeca y saber de un vistazo si un mensaje era importante o no dejo de tener sentido con los infames audios. Si tan solo me dan la opción de transcripción automática y se muestre en notificación en contenido será la mayor innovación en la mensajería instantánea desde su creación.
alpy
Los mensajes de audio los mandan vagos, incultos y egoístas, así de claro.
Tan vago como para no querer dar 20 toques y dar solo uno, tan inculto como para no tener clara la ortografía y mandar el audio donde no se nota si dice b o v o dónde pone la h, y tan egoísta para hacer perder al receptor 5 minutos sólo porque el emisor se los quiere ahorrar.
Siempre escribo por el WhatsApp, como aquí, procurando mantener la ortografía. Y a la gente que envía audios, los contesto sin ninguna prisa o no los contesto. No son las compañías que busco. No quiero amigos vagos, incultos ni egoístas, porque yo no lo soy.
jadr
Pero si desde hace tiempo se puede reenviar el mensaje de voz a cualquier bot de IA y te lo transcriben
Nacho
Estoy deseando que llegue dicha funcionalidad a iOS, por ahora sobrevivo con LuzIA pero obviamente tenerla integrada en la app es mucho más cómodo. Me niego a escuchar audios en las apps de mensajeria, para eso ya están las llamadas.
untomate
No me queda claro. ¿Entonces al autor del artículo le gustan o no le gustan los mensajes de voz?
Fede777
Me resulta llamativo que no permita copiar el texto.
jose.albiach.71
Pues vaya ventaja. Yo los que duran más de 15 segundos los borro sin oír, como para oirlos.
marxupilami
Que cosa más absurda enviar audios. Con lo fácil, cómodo, sencillo y gratificante, poderte comunicar con otra persona en vivo. Intercambiar opiniones, captar la esencia de lo que comunica la otra persona.
Ainssss, pero no nos gusta hablar por teléfono, nos resulta incomodo el poder equivocarnos o decir algo que no debemos. Primero preparar lo que vamos a decir, y después...
Luego estos se quejan de que llaman a cualquier servicio y les atiende una máquina.
A veces, cuando hablas (de verdad) y no entiendes alguna palabra, le dices a tu interlocutor: "repíte que no he entendido".
Alguna vez, cuando me mandan algún audio, les mando otro diciendo: "no se oye bien, repítemelo". Es genial, sobre todo cuando te han soltado la guerra de troya durante 4-5 minutos.
Trocotronic
Me pregunto qué hará a un usuario de Android ponerse una UI clon de iOS.
imf017
Lo pregunté en otro artículo (al parecer algún iluminado me lo moderó) y lo vuelvo a preguntar: ¿Funcionará con los audios que me manda mi abuela hablando en gallego?
albanotuero
Y en cambio, cuando podría venir bien escucharlos, que es a través de Apple CarPlay o similar, ahí no te los reproduce……
emilkagaby
No soy muy aficionada a los audios para temas personales, pero los encuentro útiles para respuestas técnicas y estudios. Recientemente, los utilicé para una entrevista en mi programa de doctorado. Convertí todos los audios a video para poder transcribir el contenido de manera más efectiva, utilizando YouTube para obener la transcripción.
Si esta herramienta hubiera estado disponible hace un mes, habría terminado mi tarea mucho más rápido. La transcripción fue excelente, con la excepción de una palabra que no se registró, probablemente debido a la rapidez con la que hablaba el entrevistado.
emilkagaby
Ay, Dios mío! La ignorancia es un tema serio 🤣. Resulta que esta opción ha estado disponible durante un tiempo, y yo estaba batallando para transcribir los audios de los actores sociales de mi investigación. No puedo creer que no encontrara esta opción en internet cuando buscaba transcribir audio; solo me aparecían alternativas de pago una vez que los audios superaban cierta duración.
Esta opción es maravillosa. En las entrevistas a profundidad, es crucial escuchar el audio para captar la entonación, el tono y el estado de ánimo que transmite el entrevistado, además de poder transcribir de manera precisa. WhatsApp, entonces, está realmente alineado con ayudar a la comunidad; no todo se trata de rentabilidad económica.
cachorroo
no te gusta escuchar los audios? son lo mas personal...lo mejor........ aunque si se necesita una trascripcion para cuando mandan demasiados audios saber de que trata cada uno....
pero me parece raro que digas "no vuelvo a escucharlos" ....