Verba va más allá de una 'maldita hemeroteca' y detecta todos los temas cubiertos por los Telediarios de TVE desde 2014

"Las palabras vuelan, lo escrito permanece". Ese es el lema de Verba, un proyecto de Civio dirigido por David Cabo para analizar la cobertura de los Telediarios de Televisión Española desde 2014.

El proyecto —que además es Open Source— ve la luz estos días tras meses de trabajo, y lo hace demostrando que no todas estas ideas geniales tienen por qué salir de alguna startup de Silicon Valley. Hemos podido hablar con Cabo para que nos cuente cómo se concibió Verba, qué nos permite hacer y qué futuro le espera a esta interesante iniciativa.

Los orígenes de Verba

Civio es una organización independiente y sin ánimo de lucro que lleva años combinando periodismo y tecnología porque como decía David Cabo (@dcabo), su fundador, "la tecnología está a merced del periodismo". En este caso, para —como ellos mismos explican— "vigilar a los poderes públicos, informar a todos los ciudadanos y presionar para lograr una transparencia real y eficaz en las instituciones".

La búsqueda de la transparencia y el acceso de información que persigue Civio se han ido demostrando a través de esfuerzos como 'el BOE nuestro de cada día' con el que Eva Belmonte (@evabelmonte) acerca a los ciudadanos las conclusiones de cada uno de los Boletines Oficiales del Estado que se publican, o 'Medicamentalia', una investigación periodística de Ángela Bernardo (@maberalv) sobre la brecha global en el acceso a la salud, entre otros proyectos.

Este proyecto llamado Verba, no obstante, es muy diferente. David Cabo nos contaba como hace unos años vio en Estados Unidos una emisión con las sesiones del Congreso en la que surgió la idea: en el sitio web de "A la carta" de RTVE comprobó que cada Telediario contaba con subtítulos que no solo estaban disponibles al reproducir el vídeo: también se podían descargar.

Eso se unió a un debate recurrente que entonces comenzaba a surgir sobre las temáticas que se cubrían en los informativos de la televisión pública estatal. ¿De qué se hablaba en cada Telediario, y cuánto tiempo?

Los subtítulos permitían responder a esa pregunta, y tras conseguir una beca Google News Initiative —que incentiva el uso de la tecnología en la industria de los medios de comunicación— pusieron en marcha el proyecto aprovechando un ámbito científico muy especial: el Procesamiento del Lenguaje Natural (PLN).

Perdona, ¿qué estás diciendo?

El Procesamiento del Lenguaje Natural ha avanzado de forma excepcional gracias a la introducción de algoritmos de aprendizaje automático (machine learning) para el procesamiento del lenguaje, y permite que las máquinas puedan procesar grandes cantidades de datos procedentes del lenguaje natural que usamos en nuestro día a día.

Un ejemplo de lo que permite Verba: ¿de qué trama de corrupción se ha hablado más en RTVE en los últimos años? No ha sido la Púnica con 357 apariciones, sino tanto la Gürtel (712 apariciones) como los ERE (804). Fuente: Verba.

La técnica es perfecta para analizar y extrapolar información de esos subtítulos que ofrecían los Telediarios de RTVE. Como explicaba Cabo, Verba "tiene cierta complejidad técnica, pero no demasiada". Su funcionamiento se basa en primer lugar en la descarga de los subtítulos, que se van agregando a una gran base de datos construida con Elasticsearch, un potente motor de búsqueda distribuido.

Eso sí, destacaba Cabo, antes hay un paso intermedio: esos subtítulos se parten o dividen por frases gracias a una librería PLN que permite "diseccionar" cada Telediario en partes que luego facilitan encontrar resultados de búsqueda de forma eficaz.

A partir de ahí empieza el trabajo de la aplicación, realizada en JavaScript con Vue.js, y que a su vez hace llamadas a una librería de visualización llamada D3.js que es la que ofrece los resultados que ve el usuario al procesarse su búsqueda. Este proyecto de Civio, explicaba Cabo en el anuncio oficial, ha avanzado entre otras cosas gracias a la colaboración de expertos como Víctor Peinado o Pablo Rey.

Ya puedes saber cuándo se habló de cierto tema en el Telediario

Verba convierte los informativos de RTVE en una singular hemeroteca: una por la que es posible navegar con simples términos de búsqueda que además podremos combinar usando los operadores de Elasticsearch. Así, podremos excluir términos (con el símbolo "-") o hacer por ejemplo búsquedas "OR" usando el símbolo "|" (por ejemplo buscando "Trump | Obama").

La búsqueda no solo se puede compartir en redes —cada una genera una URL, como ocurre con nuestro ejemplo— sino que al hacerla aparece un gráfico que muestra el número de apariciones de esos términos de búsqueda a lo largo de los años en los informativos de TVE. Podremos además descargar los resultados de la búsqueda en formato .csv.

Ese gráfico es una representación visual de esas apariciones, pero tendremos cada una de ellas disponibles con un pequeño extracto de la transcripción en el que se encontraron esos términos de búsqueda con el día y la edición del Telediario al que pertenecen. En esas "cajas" para cada resultado podremos además pasar el ratón por encima (el tradicional hover) para acceder al contexto, lo que hará que aparezca una ventana pop-up con la transcripción algo más ampliada, pero también con un enlace directo al vídeo de esa retransmisión, que se abrirá en una nueva pestaña del navegador.

Ejemplo de un primer resultado para la búsqueda realizada como ejemplo. Se indica el momento en el que se mencionan los términos de búsqueda en el programa, se resalta el término encontrado y se da acceso al contexto o bien un enlace al vídeo en el servicio "A la carta" de RTVE.

En ese vídeo podremos localizar fácilmente el momento exacto en el que se nombraba el término o términos de búsqueda, porque esa información también aparece como parte de los datos publicados en cada resultado.

Además del buscador, en Civio ponen a nuestra disposición algunos ejemplos de los análisis que se pueden realizar a partir de esos resultados. En el apartado "Titulares" muestran cinco ejemplos de coberturas que se han realizado en el Telediario en los últimos años para analizar entre otras cosas el rigor científico al hablar de las dietas o la diferencia de cobertura que han tenido distintas tramas de corrupción como la Gürtel o los ERE.

Esto es solo el principio

El servicio es funcional y su respuesta es sorprendentemente rápida y precisa, pero para David Cabo "solo hemos lanzado una primera parte". Él y su equipo en Civio quieren "aplicar más tecnologías PLN" que entre otras cosas "permitan la extracción de entidades". Gracias a esa capacidad Verba podrá reconocer nombres propios y diferenciarlos según el contexto.

En Civio ofrecen todas las transcripciones de los distintos informativos de RTVE de las 15 y las 21 horas que se han emitido desde 2014 organizados por año, mes y día de emisión.

Hay un ejemplo muy claro de las actuales limitaciones de Verba: de momento una búsqueda de "Podemos" confundirá el partido político con el uso de la forma verbal, pero esa extracción de entidades ayudará a diferenciar entre uno y otro.

Como nos explicaba Cabo, esa opción "está cerca" de implementarse, pero no era lo precisa que hubieran querido y han preferido retrasar su lanzamiento. Para ofrecerla volverán a aprovechar técnicas de aprendizaje automático que con un montón de entrenamiento —y un pequeño truco, la detección de mayúsculas— permiten ayudar a diferenciar con ayuda del contexto entre unos casos y otros.

No solo eso: David Cabo también apuntaba a otra opción de futuro especialmente interesante: la división de la transcripción en trozos clasificados por temas, de forma que en cada Telediario se sepa cuánto se ha hablado de deportes o de política, por ejemplo. De hecho la idea es poder realizar una clasificación muy precisa que permita saber cuánto se ha hablado de cada tema en cada informativo.

Eso permitirá responder a preguntas que ahora tienen respuesta algo más difusa como si se está hablando poco, nada o mucho de diversas temáticas en los informativos de una cadena pública como RTVE, y hace que Verba se postule por tanto como una herramienta muy útil para analizar la verdadera transparencia de estos informativos.

Eso, por supuesto, además de ser una "maldita (bendita) hemeroteca" que permita detectar qué se dijo, quién lo dijo y cuándo lo dijo, algo que algunos usuarios y expertos ya han descubierto.

Verba funciona con una base de datos construida a partir de 2014 por una sencilla razón: es el momento en el que RTVE comenzó a subtitular sus Telediarios y a poner en la web esos subtítulos.

¿Es factible que esa búsqueda acabe yendo aún más atrás en el pasado? Por supuesto, pero para eso necesitan la transcripción de esos informativos. Aunque han hecho pequeños experimentos para transcribirlos con sistemas automáticos —como Transcribe de Amazon—, Cabo nos indicaba que la conclusión es que ese proceso es costoso en tiempo y dinero.

Transcribir un solo Telediario no es muy caro, pero cuando hablamos de hacerlo con todos los informativos durante varios años la cosa cambia. En Civio hablarán de hecho con RTVE para intentar recabar más subtítulos de informativos anteriores, así que es factible que por una u otra vía acabe ampliándose ese rango de tiempo que está cubierto por Verba.

Con Verba es por ejemplo fácil encontrar las apariciones de Pichai o Zuckerberg en un Telediario. Ambos lo hicieron en el Mobile World Congress de 2015 en Barcelona. Fuente: RTVE

De hecho el proceso es totalmente extrapolable a los informativos de otras cadenas. En Civio trataron de obtener los subtítulos de los informativos como los de las privadas, pero no se publican o no lo hacen en un formato que sea fácilmente tratable para ellos de momento.

La idea de Cabo es ofrecer esta herramienta no solo a cualquier usuario —que puede replicar el proyecto sin problemas gracias al repositorio de GitHub donde está el código— sino a consejos audiovisuales, universidades y facultades de periodismo, u organismos reguladores para que lo utilicen y puedan así sacar sus propias conclusiones.

Precisamente GitHub —en el apartado de Issues del proyecto— desvela muchas de las claves de la evolución de un proyecto en el que David Cabo por ejemplo comparaba distintas plataformas PLN y también hablaba de los problemas a la hora de reconocer nombres propios o el coste económico que tendría ese procesamiento antes de llevarlo a cabo.

Lo que está claro es que Cabo y todo el equipo de Civio quieren ver crecer esta iniciativa. De hecho el fundador de Civio ha realizado un llamamiento a la Comunidad Civio que nosotros extendemos.

Como él mismo decía tanto en la presentación oficial del servicio en el blog de Civio como en Twitter, "si tienes curiosidad por estas cosas, pásate por la comunidad de Civio y hablamos". No solo eso: si quieres ayudarles a encontrar historias interesantes en los Telediarios a través de Verba, ya puedes hacerlo también gracias a su Comunidad.

Ver todos los comentarios en https://www.xataka.com

VER 9 Comentarios

Portada de Xataka