El estado del arte del software para transcribir entrevistas, clases magistrales y juicios

Os voy a contar un secreto. Cuando a los que nos dedicamos a esto de escribir nos dicen que tenemos que hacer una entrevista con algún profesional del sector, muchos nos echamos a temblar. No porque sea difícil prepararla (que también), sino porque una vez grabada toca pasarla a texto. Si son un par de declaraciones en un audio de cinco minutos no pasa nada, pero ¡ay!, qué momento cuando te sientas delante del ordenador y te espera un audio de dos horas.

Hay algunos programas que permiten controlar la reproducción del audio conforme escribes, de forma que la tarea se hace algo más sencilla si tienes una ratio de pulsaciones / segundo medianamente alta, pero ¿no es curioso que teniendo asistentes virtuales que nos entienden casi a la perfección no haya un software conocido para transcribir audio a texto? Nosotros hablamos de entrevistas, pero si lo piensas, este software sería útil para casi cualquier contexto que implique transcripción.

Un software de transcripción es útil para cualquier situación, ya sea una entrevista, una clase o un vídeo de YouTube

Algunos ejemplos podrían ser cuando grabas una clase magistral para poder escucharla de nuevo en casa y tomar apuntes o, sin ir más lejos, los taquígrafos de tribunal, a.k.a. las personas que toman nota de todo lo que se dice en un juicio. Estos últimos juegan con ventaja, ya que usan taquigrafía y una máquina estenográfica, es decir, que usan atajos y lo registran todo a una velocidad de vértigo. Sea como fuere, ¿no sería más sencillo que, en lugar de hacerlo tú, un software lo hiciera por ti? Sin duda.

En Xataka

Hay quienes apuestan a que los altavoces inteligentes y los asistentes de voz revolucionarán la forma de aprender idiomas

Software hay, pero no es completamente gratuito (ni tampoco caro)

Basta con echar un ojo en la red para encontrar decenas de programas, aplicaciones web y móviles que permiten transcribir un audio a texto. Sin ir más lejos, Amazon y Google tienen su propio servicio a disposición de cualquier usuario (no necesariamente desarrolladores) a un precio realmente asequible. Aun así, no es necesario irnos a grandes corporaciones para encontrar un software adecuado.

Amazon y sus AWS

Empecemos por Amazon. La empresa de Jeff Bezos, más allá de facturar una (o varias) millonadas vendiendo productos a través de su tienda online, tiene uno de los servicios más populares de Internet: Amazon AWS (Amazon Web Services). Se usa para, literalmente, todo, desde almacenamiento en la nube a bases de datos, potencia de cómputo, realidad aumentada, aprendizaje automático y, cómo no, transcripción de texto. El servicio que se encarga de esto último es Amazon Transcribe, y es realmente asequible.

Amazon Transcribe se define como “un servicio de reconocimiento de discurso automático (ASR) que facilita a los desarrolladores agregar capacidades de voz a texto en sus aplicaciones”. Los desarrolladores pueden acceder a una API, integrarla en sus apps y ofrecer funciones speech-to-text, aunque el resto de los mortales podemos subir un archivo MP3 y recibir la transcripción en cuestión de unos minutos si tenemos algo de paciencia para configurar la herramienta. Generalmente se usa para servicios de atención al cliente, subtitulación de contenido y catalogación de archivos de sonido.

El precio de transcribir un audio usando el servicio de Amazon es de 0,0004 dólares por segundo

Funciona en inglés, francés, italiano, portugués y español (de Estados Unidos), aunque puedes usar un archivo en español de España y recibir la transcripción igualmente. Para ello, basta con subir el archivo a Amazon S3 y dejar que el software haga su trabajo. Eso sí, tiene que tener menos de dos horas de duración. Amazon es capaz de identificar diferentes voces, por si hay varios interlocutores, e incluso puedes crear un vocabulario personalizado.

Esta función es realmente útil para audios técnicos, por ejemplo, una entrevista sobre física cuántica en la que se usen palabras como gigaelectronvoltio, kaón, leptón, neguentropía o spin. Si introduces esas palabras, cuando Amazon Transcribe detecte una coincidencia las sustituirá y el texto será más correcto, que no perfecto. Casi siempre, salvo que sean cosas sencillas, requerirá que lo revises. Para facilitarte la vida, Amazon te devuelve el texto con marcas temporales para que sepas en qué segundo del audio se dice tal o cuál cosa, de forma que no tengas que escucharlo entero para encontrar un error y modificarlo. Como dato interesante, Amazon Transcribe usa Deep Learning para añadir puntuación, como comas, puntos, signos de interrogación y exclamación.

A mayor longitud del audio, mayor velocidad de transcripción

Curiosamente, funciona mejor cuanto más largo es el audio. Según Amazon, las transcripciones están optimizadas para audios de más de 30 segundos y, a partir de los dos minutos, la velocidad de transcripción mejora exponencialmente. Por ejemplo, un audio de 10 minutos tarda unos cinco minutos en transcribirse, mientras que un audio de dos horas tarda unos 35 minutos.

Su precio es de 0,0004 dólares por segundo con un cargo mínimo de 15 segundos por solicitud. Para que te hagas una idea, subtitular el último tráiler de “Los Vengadores: Engadme”, que dura 2:30 minutos, costaría cinco céntimos. Si te interesa, durante los 12 primeros meses puedes acceder gratis a 60 minutos de transcripción mensuales. Si la superas o termina el año, pasarás a pagar en función del uso, aunque ya ves que no es algo demasiado caro. Una hora de audio son 3.600 segundos, es decir, poco más de un euro, una cifra asumible teniendo en cuenta el coste de oportunidad y el tiempo que te ahorras.

La nube de Google

Google, además de con su buscador, gana dinero con sus servicios de procesamiento en la nube, inteligencia artificial y aprendizaje automático. Uno de ellos es la transcripción de voz, que es una API a la que los desarrolladores pueden acceder para, como ocurre en Amazon, integrarla en sus aplicaciones y ofrecer reconocimiento y transcripción de voz. ¿Punto positivo? Soporta hasta 120 idiomas y variantes, mientras que Amazon funciona con solo un puñado de idiomas. ¿Punto negativo? Por el momento, no se lleva bien con la puntuación y no tiene un sistema sencillo de subida de archivos.

¿Qué quiere decir esto? Que, si eres estudiante o periodista y no tienes ni idea de programación, no podrás usar una herramienta en la web o un software sencillo. Como mucho podrás crear un proyecto en la Consola de Google Cloud y, si te llevas bien con los tutoriales, crear tu propia app con la API de Google y, entonces sí, transcribir el audio. Por eso uno de los usos a los que Google hace referencia es la transcripción de llamadas de servicios de atención al cliente, ya que su servicio se integra en otras herramientas.

Usar la nube de Google implica tener ciertas habilidades de programación y desarrollo, no es tan sencillo como apretar un botón

Por otro lado, Google detecta el idioma en el que se pronuncia una frase (hasta un máximo de cuatro idiomas), transcribe audios de formato corto y largo en tiempo real, sean grabados en el momento o de un archivo grabado previamente, e incluso es capaz de transcribir nombres propios, fechas y números de teléfono en el formato correcto. Según la empresa, “el número de nombres propios que reconoce Google es más de 10 veces mayor que el número de palabras que recoge el diccionario Oxford de la lengua inglesa”.

Demo de la API speech to text de Google.

Asimismo, el motor de Google ofrece modelos prediseñados en función de las necesidades. No olvidemos que estamos hablando de un sistema que se integra en las apps y que una aplicación de navegación no recibirá los mismos inputs de audio que una app de música. Así, la nube de Google ofrece diversos modelos contextuales para que una app de navegación responda mejor a audios como “llévame a la calle tal o cual” y una app de música responda mejor a órdenes y comandos como “reproduce la playlist tal o cual”. Otra de las ventajas es que lleva a cabo un tratamiento del ruido, de forma que el motor de transcripción es capaz de procesar un audio grabado en entornos ruidosos.

El precio del uso de la API se determina mensualmente y se mide en incrementos redondeados a los siguientes 15 segundos, es decir, que tres audios de 10 segundos no se facturarán como 30 segundos, sino como 45 segundos. El reconocimiento de voz es gratuito hasta los 60 minutos mensuales en aplicaciones de sistemas personales (es decir, una app que instales en tu móvil). A partir de entonces, se cobran 0,006 dólares por cada 15 segundos. En el caso de que quieras usar el sistema para reconocer voz en vídeo, hasta 60 minutos al mes es gratis y, a partir de ahí, son 0,012 dólares por cada quince segundos. El límite mensual es de un millón de minutos de audio al mes.

Google Docs tiene una herramienta llamada "Escritura por voz" que escribe todo lo que vayas diciendo en tiempo real

Ahora bien, que no tengas ni idea de programación y no sepas crear una app que haga uso de esta API no significa que no la puedas usar. Google Docs tiene integración con el motor de reconocimiento y transcripción de voz de Google y funciona realmente bien. Simplemente debes crear un documento nuevo en Google Drive, ir a “Herramientas” y seleccionar “Escritura por voz”. Conforme hables, Google irá escribiendo el texto, aunque lo de la puntación no lo lleva demasiado bien. Tienes que ser tú el que, expresamente, diga “Hola coma me llamo Jose” para que Google escriba “Hola, me llamo Jose”.

Donde también funciona es en Google Keep. En la app de notas de Google puedes guardar notas de audio y recibir una transcripción instantánea. No es el sistema más útil para entrevistas y juicios, desde luego, pero para un uso casual puede valer.

IBM y los servicios de Watson

Así son las entrañas de Watson.

Seguramente hayas oído hablar de Watson, y no, no nos referimos al acompañante de Sherlock Holmes, sino a la inteligencia artificial de IBM. Watson está particularmente especializado en reconocimiento e interpretación del lenguaje natural y, como ocurre con Amazon, su sistema de IA se puede usar para infinidad de cosas, incluyendo transcripción de voz a texto.

Funciona en inglés, japonés, árabe, mandarín, portugués, español, francés y coreano y, según IBM, funciona hasta en audios de calidad baja. Evidentemente, a mayor calidad de audio, mejores resultados. Entre las características de este sistema está el modo de reconocimiento preciso, que requiere de algo de intervención por parte del usuario, pero mejora cuantiosamente los resultados.

Una de las bondades del sistema de IBM es que añade marcas temporales al texto y ofrece interpretaciones alternativas

¿Cómo funciona? Como Amazon. Puedes crear un modelo con palabras personalizadas (recuerda el caso de la entrevista de física cuántica del que hablábamos antes) para que la IA mejore la comprensión y ofrezca una transcripción más veraz. También es capaz de reconocer varios interlocutores, ofrecer timming para ver en qué momento del audio se dijo algo e incluso ofrecer alternativas con su respectivo porcentaje de probabilidad. Por ejemplo, en un audio en inglés puede detectar “these” o “this”, según la pronunciación de la persona. Por defecto elige la más probable, pero permite consultar qué otras opciones podrían haber sido y el porcentaje de veracidad de la opción elegida.

La IA de IBM es capaz de detectar varios interlocutores hasta en la demo gratuita (que, por cierto, funciona bastante bien).

Como ocurre en el caso de Google, estamos hablando de una API que debe usarse mediante una interfaz de comandos a desarrollar por parte del usuario, no es una plataforma con un botón de “Subir audio” que funcione mágicamente. Es complicado, sobre todo si, como un servidor, no te manejas demasiado bien con el código, pero puedes probarlo por ti mismo gracias a una demo gratuita que tienen en su web. No respeta la puntuación, pero detecta las voces, añade marcas temporales, detecta las palabras clave que tú elijas y ofrece palabras alternativas.

Ahora bien, si te animas a crear tu propia aplicación, te interesa saber que tienes 100 minutos al mes gratis creando una cuenta y eligiendo el plan Lite, aunque no ofrece modelos de personalización. El precio de los planes superiores depende del número de minutos que vayas a necesitar. Así, el precio por minuto en el plan de estándar más sencillo es de 0,02 dólares, mientras que el precio por minuto por el plan de más de un millón de minutos es de 0,01 dólares.

Microsoft y Azure

Microsoft también permite probar su software gratis en la web.

Microsoft, además de Windows y Office, tiene una completa suite de servicios de inteligencia en la nube conocida como Azure. Es de las más extendidas a nivel global con 54 centros de datos repartidos por todo el mundo y la usan el 95% de las empresas Fortune 500, véase Coca Cola, Adobe, Reuters, Samsung o BMW. Como el resto de empresas que hemos visto anteriormente, el motor de reconocimiento de voz y transcripción a texto es una API, lo que se traduce, como ya puedes imaginar, en que tienes que desarrollar una app en la que integrarla.

Esta herramienta se enmarca en los “Servicios Cognitivos” de Azure y puede usarse tanto en vivo, es decir, obteniendo el audio del micrófono, o desde un archivo previamente grabado. Entre sus funciones destacadas están Custom Speech Service, que permite crear un modelo de reconocimiento eliminando las barras del estilo del habla, el vocabulario y el ruido. Esto usa diferentes APIs para ayudar al sistema a entender la pronunciación y dar una respuesta veraz.

El servicio speech to text de Microsoft es capaz de ignorar acentos creando modelos personalizados

Otra de las funciones interesantes que Microsoft Azure incorpora en su API de transcripción es la traducción instantánea de varios idiomas. Esta usa traducción automática estadística (SMT) y traducción automática neuronal (NMT), siendo la segundo la más precisa, fluida y natural, ya que usa el contexto de la oración para traducir la frase. Aun así, solo se usa en los idiomas más populares, dejando SMT para los idiomas que se usan con menos frecuencia.

El precio del servicio de conversión de voz a texto es gratuito cuando se hace una sola solicitud simultánea, es decir, que no transcribes varios audios a la vez, con un máximo de cinco horas al mes. Si requieres servicios más potentes, el plan estándar admite hasta 20 solicitudes simultáneas y ofrece conversión de voz a texto por 0,844 euros la hora, 1,181 euros la hora si quieres usar modelos personalizados (Custom Speech Service).

Los ponemos a prueba

Todo lo visto hasta el momento está muy bien, pero ¿cómo se comportan en una situación real? Salvando a Amazon Transcribe, que nos dio problemas con la tarjeta de crédito (necesaria para verificar la cuenta) y no nos dejó acceder por más que lo intentamos, hemos probado los servicios de transcripción de Google, Microsoft e IBM.

Para ello, en lugar de coger un fragmento de un libro o de un artículo ya publicado, hemos elegido el primer párrafo de este artículo. Este dice lo siguiente:

Os voy a contar un secreto. Cuando a los que nos dedicamos a esto de escribir nos dicen que tenemos que hacer una entrevista con algún profesional del sector, muchos nos echamos a temblar. No porque sea difícil prepararla (que también), sino porque una vez grabada toca pasarla a texto. Si son un par de declaraciones en un audio de cinco minutos no pasa nada, pero ¡ay!, qué momento cuando te sientas delante del ordenador y te espera un audio de dos horas.

Es un párrafo difícil porque tiene comas, puntos, signos de exclamación y hasta un paréntesis. Luchando contra mi marcado acento andaluz, lo he leído y grabado hablando despacio, claro, pronunciando todas las letras y haciendo las pausas correspondientes. Posteriormente, he subido el archivo a Google e IBM y lo he leído de nuevo para Microsoft (la demo no te deja subir archivos). Los resultados han sido los siguientes (se han copiado tal y como los han devuelto los servicios):

Google: "os voy a contar un secreto cuando los que nos dedicamos a esto de escribir nos dicen que tenemos que hacer una entrevista con algún profesional del sector mucho nos echamos a temblar no porque sea difícil preparar la que también sino porque una vez grabada toca pasar la texto son un par de declaraciones en un audio de 5 minutos no pasa nada pero hay que momento cuando te sientas delante del ordenador y te espera un audio de 2 horas".
IBM: "Os voy a contar un secreto cuando los que nos dedicamos a esto escribir nos dice que tenemos que hacer una entrevista con algún profesional del sector mucho nos echamos a temblar no porque sea difícil preparar la que también sino porque una vez grabada toca pasar la texto sí son un par de declaraciones y un audio de 5 minutos no pasa nada pero hay que momento cuando te sientas delante del ordenador te espera una unión de 2:00 horas.".
Microsoft: "¿Voy a contar un secreto cuando lo que nos dedicamos a escribir nos dicen que tenemos que hacer una entrevista con un profesional del sector mucho nos echamos a temblar no porque sea difícil preparar la que también sino porque una vez graba esto? ¿Tengo un audio de cinco minutos no pasa nada pero hay que momento cuando te sientas delante del ordenador espera un audio de 2 horas?"

Como puede comprobarse, los tres servicios tienen una seria dificultad a la hora de entender los puntos y seguido, comas y signos de exclamación. Google e IBM devuelven un solo párrafo que cuesta leer en voz alta sin respirar. Microsoft, por su parte, ha entendido que todo es una pregunta. Tampoco han comprendido el "¡ay!, qué momento...", aunque sí han sabido interpretar, más o menos, "cinco minutos" y "dos horas".

Aunque comprenden bien todas las palabras, hay margen de mejora en la interpretación de la puntuación

En definitiva, es verdad que son servicios útiles para transcribir una entrevista rápido (fíjate en que, salvando la puntuación, casi todas las palabras transcritas se corresponden con las del texto original), pero no puedes fiarte completamente de ellos. Funcionar funcionan, pero tienen margen de mejora.

Aplicaciones a disposición del usuario

Si algo tienen en común los cuatro grandes servicios que hemos visto hasta ahora es que requieren de ciertos conocimientos de programación que, para bien o para mal, no todo el mundo tiene. Ahora bien, existen infinidad de servicios, aplicaciones y herramientas user-friendly que cumple este propósito y funcionan más o menos igual.

Una de ellas es Otter, una aplicación de notas de voz. Su argumento es que usa IA para transcribir el audio y convertirlo a texto. Se puede usar en escritorio, iOS y Android de forma totalmente gratuita durante 600 minutos al mes, esto es, 10 horas, que no son pocas. Puedes o bien grabar audio y recibir la transcripción en vivo o subir un archivo, dejar que lo procese y obtener el texto con marcas temporales. Solo funciona en inglés, por desgracia, pero lo hace muy, muy bien, hasta añade los signos de puntuación.

La escritura por voz de Google Docs funciona en casi cualquier idioma y puede valer para transcribir cosas cortas, aunque no funciona demasiado bien para convertir clases o sesiones de audio largas. Para más inri, no permite subir archivos y recibir la transcripción y no se lleva bien con la puntuación, por lo que acabarás teniendo un texto de un solo párrafo sin puntos ni comas. Puedes usar la extensión SoundWriter para mejor la interpretación de la puntuación. Ahora bien, hay un truco interesante para “emular” la subida de audio.

Los iPhone y móviles Android tienen reconocimiento por voz integrado por fábrica y puede usarse en cualquier app, aunque no es válido para entrevistas o audios largos

Hay un software gratuito llamado Audio Virtual Cable que permite configurar un driver de sonido “ficticio”, sea de entrada o salida. Así, puedes modificar la configuración de audio del ordenador para que tome como entrada de micrófono el audio de un archivo en reproducción, de forma que Google Drive creerá que “le estás hablando” cuando, en realidad, el audio viene de un archivo pregrabado. Solo hay que instalarlo y, en la configuración de sonido del ordenador, elegir “CABLE Output” como dispositivo de entrada. Luego abres el archivo en cualquier programa como VLC, y listo, Google Docs empezará a trascribirlo. Muy interesante, siempre y cuando no te importe obtener un texto sin una sola coma.

Windows y Mac también tienen sus propias herramientas de dictado para convertir voz en texto. El problema es que, como ocurre con el dictado de Google, no sabe interpretar las comas, los puntos, las preguntas y las exclamaciones. Puedes usar el mismo truco para emular el audio y dictar desde un archivo, pero no es la opción más recomendable puesto que es poco precisa, lenta y requiere de demasiada intervención por parte del usuario.

Otra opción es Go Transcribe, que sí permite subir archivos y recibir la transcripción, aunque es de pago y no precisamente barato. Puedes optar por 25 céntimos el minuto y pagar en función del audio o por una suscripción de 52,8 euros al mes por cuatro horas de audio. Funciona en una buena cantidad de idiomas, incluidos inglés, alemán, español, coreano, italiano y portugués. En la línea se mueven SpeechMatics, que funciona exactamente igual y cuesta 0,07 céntimos por minuto; Transcribe Wreally, que cuesta 17,63 euros al año más 5,29 euros por hora de audio transcrita, y Temi, que vale ocho céntimos por minuto y tiene aplicaciones para iOS y Android.