¿Por qué no servirá de nada que te tapes la cara si vas a cometer un delito?

¿Por qué no servirá de nada que te tapes la cara si vas a cometer un delito?

12 comentarios Facebook Twitter Flipboard E-mail
¿Por qué no servirá de nada que te tapes la cara si vas a cometer un delito?

Hoy en día podemos encontrar cámaras de vigilancia en multitud de lugares públicos: aeropuertos, estaciones, edificios de oficinas... Cámaras que captan imágenes que luego son susceptibles de ser utilizadas para identificar a alguien que, por ejemplo, haya cometido un delito o que esté siendo investigado por las autoridades a través de técnicas de reconocimiento facial.

El reconocimiento facial no nos es ajeno. Camina entre la delgada línea que separa la privacidad de factores como la seguridad o, incluso, la comodidad (si aplicamos estas técnicas a sistemas como el autoetiquetado de imágenes) o la medición de la satisfacción de los usuarios (como es el caso de la startup Emotient recientemente adquirida por Apple).

Pero, ¿qué ocurre si alguien lleva una máscara o un pasamontañas? A priori, parece complicada la identificación de una persona que cubre su rostro y, por tanto, esconde sus rasgos faciales distintivos a las cámaras y los sistemas de procesamiento de imágenes (más allá de mostrar los ojos y la distancia entre estos). Sin embargo, nuestra cara no es lo único que nos puede identificar.

Si pensamos en qué cosas pueden identificar a una persona, seguramente nos vengan muchas cosas a la cabeza: el rostro, nuestro ADN (nuestra principal firma biológica), nuestras huellas dactilares, nuestra forma de andar y, por supuesto, nuestra voz.

La voz y nuestra forma de hablar

Que la voz puede identificar a una persona es algo que todos, más o menos, tenemos claro y, de hecho, es algo que asumimos cuando contestamos al teléfono y reconocemos (sin tener que mirar el identificador de llamada entrante) quién es la persona que está al otro lado de la línea telefónica.

Según un estudio presentado por la Universidad de Montreal en el 18º congreso internacional de ciencias fonéticas celebrado en Glasgow, el ser humano es capaz de reconocer a una persona el 99,9% de las veces con oír apenas 2 palabras (en el caso del estudio: "merci beaucoup", muchas gracias en francés).

En el caso de los humanos, hay un conjunto de neuronas que se activan en el cerebro en el momento en el que oímos sonidos vocales. Esa zona cerebral es capaz de procesar la información lingüística y también las características físicas y emocionales del hablante; por tanto, es capaz de reconocer nuestra ”cara auditiva”.

Generacion De La Voz Humana

Cada persona tiene unas características acústicas únicas, igual que huellas dactilares. Estas características vienen determinadas por nuestras cuerdas vocales, nuestra laringe y las cavidades oral y nasal; es decir, el sistema por el que pasan las ondas acústicas y sufren distintas variaciones al ir resonando. Nuestra voz es una onda formada por señales a distintas frecuencias, concretamente, las mujeres presentan un patrón de frecuencias entre 165 y 225 Hz y los hombres entre 85 y 180 Hz; las frecuencias que marcan la voz de cada individuo vienen determinadas por sus características físicas, por tanto, nuestra voz lleva anexa información relativa a nuestra edad, género, altura o peso.

Pero aún hay más información que va pareja a nuestra voz y nuestra manera de hablar, por ejemplo, nuestro origen o, incluso, nuestro estado de ánimo.

Aquí es donde entran en juego los fonemas, es decir, las unidades mínimas que representan los sonidos de una lengua. Cada persona tiene una manera característica de generar los fonemas que forman una palabra que estamos articulando con nuestra voz; es decir, cada persona pronuncia las palabras de una manera distinta, por un lado, debido a sus características fisiológicas (generación de sonido) y, por otro lado, por sus circunstancias y contexto (acento regional, imitación de su entorno cercano, etc.), por su estado anímico (estrés, tristeza, alegría) o, incluso, por su nivel cultural (dicción, palabras que utiliza, estructuración de las frases...). Incluso las pausas o silencios que introducimos en nuestra conversación también pueden llegar a ser un patrón característico de una persona.

De manera natural, el ser humano procesa toda esta información en su cerebro cuando escucha la voz de otra persona. Sin darnos cuenta, catalogamos a la persona que estamos escuchando para ver de dónde procede (acento), su nivel cultural (habla o no habla correctamente) o, incluso, para hacernos una idea de su estado anímico (por la voz de alguien que conocemos somos capaces de percibir si le sucede algo fuera de lo normal).

Reconocimiento de voz y reconocimiento del hablante

Llegados a este punto y sabiendo que nuestra voz dice mucho de nosotros, es importante que distingamos dos conceptos que, a veces, se suelen tratar como una única cosa: reconocimiento de voz (speech recognition) y reconocimiento del hablante (speaker recognition).

De manera genérica, solemos asumir bajo el paraguas de reconocimiento de voz tanto la capacidad de un sistema en "transcribir lo que decimos" como la capacidad de identificar a la persona que lo dice. Dicho de otra forma, que un sistema sea capaz de interpretar lo que estamos hablando (como hace Siri o Cortana o los sistemas de control por voz que se implementan en los automóviles) no es lo mismo que identificar quién o quiénes lo están diciendo.

La biometría que hay en nuestra voz es el gran reto al que se enfrentan investigadores, empresas de seguridad y servicios de inteligencia de todo el mundo.

Puede parecer ciencia-ficción o un recurso sacado de películas de espías como Juego de Patriotas pero es mucho más real de lo que, quizás, nos podamos llegar a imaginar puesto que es algo que se está utilizando, por ejemplo, para identificar a los miembros de Estado Islámico que protagonizan los vídeos de propaganda de la organización (a pesar de salir con la cara tapada).

Espectrograma De Una Frase Csic
Análisis de frecuencias de una frase hablada. Fuente: CSIC

Identificando voces

La identificación a través de la voz no es algo nuevo ni vinculado únicamente a la tecnología, es una disciplina que se conoce como lingüística forense y que se apoya, evidentemente, en la comparación de patrones de voz.

¿Y qué ocurre cuando alguien intenta alterar su voz o usa un distorsionador? ¿Es posible ocultar ciertos rasgos característicos? Precisamente, ésta fue la pregunta que se plantearon en el Laboratorio de Fonética del CSIC en el proyecto CIVIL (Cualidad Individual de Voz e Identificación de Locutor), un programa de investigación que tenía como objetivo averiguar qué características personales de nuestra voz no se pueden disimular ni tampoco distorsionar y, por tanto, son determinantes para identificar a una persona.

Como comentábamos al inicio, nuestra voz está formada por distintos tonos y frecuencias que son característicos de cada persona. Por tanto, un análisis de frecuencias es una buena vía de localizar la "biometría de nuestra voz"; sin embargo, el análisis de frecuencia puede llevar anexa información errónea debida al ruido ambiente o la presencia de otras voces.

Si nuestro cerebro es capaz de aislar estos agentes externos de ruido y procesar sonidos para transformarlos en palabras, quizás haya que tomar nuestro cerebro como referencia a la hora de realizar un análisis de la voz para identificar al hablante. Aquí es donde entran en juego los sistemas basados en redes neuronales y el machine learning.

Redes neuronales y machine learning

Los sistemas de inteligencia artificial basados en redes neuronales no son algo nuevo, llevan años usándose en sistemas de reconocimiento de imágenes o, incluso, en los sistemas de dictado de nuestros dispositivos móviles. En el fondo, son modelos que nos permiten desarrollar algoritmos que permiten que un sistema sea capaz de aprender en base a una información o conocimiento previo.

Dicho de otra forma, de la misma manera que una persona aprende en base a su propia experiencia (y se producen conexiones entre nuestras neuronas cerebrales), una máquina podría aprender y "saber qué hacer" en base a información previa (o histórica) suministrada como si fuesen ejemplos (generándose también conexiones en la "red neuronal artificial").

Las técnicas de machine learning pasan los sistemas por una fase de "entrenamiento" en la que recibe inputs (datos de entrada) y también se le facilitan los outputs, es decir, los resultados finales; de esta forma, el sistema va "aprendiendo" y se va autoconfigurando para ser capaz de calcular los outputs por sí mismo ante dichos inputs de entrada. Conociendo inputs y outpus y midiendo el error entre el output real y el que genera el sistema, la máquina es capaz de ajustar sus cálculos para acercarse a los resultados esperados.

Tras el entrenamiento de la máquina, ésta sería capaz de usar todo su aprendizaje validado (y su conocimiento previo) para calcular resultados ante inputs nuevos, de la misma forma que una persona usa su conocimiento a la hora de reconocer un objeto o, en el caso que nos ocupa, reconocer una voz y saber quién es la persona que hay detrás de dicho sonido.

¿Y cómo se aplica el machine learning al reconocimiento de personas a través de su voz? Como hemos explicado, nuestra voz tiene patrones característicos como nuestra cadencia a la forma de hablar, las distintas frecuencias que generamos o los fonemas (sonidos que generamos para formar las palabras). Si un sistema es capaz de aislar estas características y compararlas con un banco previo de patrones que ya conoce, igual que hace nuestro cerebro, sería capaz de realizar la identificación de una voz y asociarla con una persona conocida.

Aquí está una de las claves de este tipo de sistemas complejos: la necesidad de un banco previo de conocimiento. Para realizar la comparativa es necesario contar con patrones con los que poder cotejar; de hecho, las agencias de inteligencia y los servicios de seguridad intentan localizar fragmentos de audio de los sospechosos que intentan localizar para poder realizar estos cotejos.

Sin estos patrones previos, la información que podremos extraer estará mucho más vinculado a un "retrato robot" que la identificación de una persona concreta: edad, acento (origen), dónde ha vivido (mezcla de varios acentos), etc.

Patrones Para Una Red Neuronal Para Identificar Speaker
Esquema de redes neuronales para un sistema de identificación basado en la voz. Fuente: Fred Richardson, Douglas Reynolds y Najim Dehak.

Big data, seguridad y reconocimiento de voz

Queda claro que uno de los pilares de la identificación por voz son los patrones y su asociación a una identidad, es decir, a una persona concreta.

Aquí es donde entran en juego tanto los sistemas de seguridad de las agencias de espionaje como los sistemas destinados a empresas o banca. Si miramos al sector de las aplicaciones enfocadas en la seguridad, sin duda, uno de los primeros nombres que salen a la palestra es Nuance.

Nuance es una empresa especializada en procesamiento de voz en un amplio espectro de casos de uso: dictado, comandos por voz para vehículos e, incluso, aplicaciones biométricas basadas en la voz (es decir, identificar personas o, como dice su página web: "my voice is my password"). Nuance ofrece a otras empresas, por ejemplo al sector bancario, un sistema capaz de reconocer los patrones biométricos de la voz e identificar a una persona a través de una conversación normal, como la que tendríamos con el servicio de atención al cliente de nuestro banco.

Microsoft es otra de las compañías que también está trabajando en servicios de identificación por voz; de hecho, el pasado mes de noviembre, la compañía liberó una serie de APIs del Proyecto Oxford, su programa de investigación en el área de machine learning.

Speaker Recognition Microsoft
Sistema de identificación basado en voz de Microsoft. Proyecto Oxford

Dentro de estas APIs, Microsoft dispone de algoritmos que permiten extraer la "huella de nuestra voz" y almacenarla en una base de datos con la que luego cotejar en el caso de una petición de acceso a un sistema determinado.

Edward Snowden, sin duda alguna, cambió nuestra percepción de Internet, el Big Data y la privacidad. Agencias como la NSA estadounidense o el GCHQ de Reino Unido manejan cantidades ingentes de información entre las que, seguramente, se encuentren registros de audio de vídeos y conversaciones telefónicas procedentes de puertas traseras en operadores de telefonía.

Precisamente, tomando como referencia el audio de algunos fragmentos de vídeo, fue como el Gobierno de Reino Unido identificó a “John el Yihadista” en los vídeos de Estado Islámico según reveló en 2014 el Embajador de Reino Unido en Estados Unidos (unas declaraciones en las que también dejó caer el esfuerzo del país en desarrollar tecnología para la identificación de personas a través de su voz).

Más allá de la voz, el ADN y el reconocimiento facial

Dentro de los sistemas basados en biometría, la huella dactilar ha sido uno de los más utilizados; por tanto, ponerse guantes y no dejar huellas era una buena vía de evitar ser identificado. Ante la videovigilancia y el reconocimiento facial, taparse la cara podía ser una buena forma de evitar este tipo de sistemas y, claro está, no hablar parece que es la mejor vía de evitar los sistemas de identificación basados en la voz.

¿Hay más sistemas de identificación basados en características de nuestro cuerpo? Nombramos de pasada que cada persona tiene una manera característica de andar y moverse (dejando a un lado los desfiles y paradas militares). Por tanto, no sería descabellado pensar que también pudiésemos ser identificados por nuestra forma de andar o correr (por mucho que nos hayamos tapado la cara y hayamos evitado hablar).

En el año 2008, dos investigadores de India publicaron un trabajo que apuntaba en esta línea y que sentaba las bases de la identificación a distancia basándose en el estudio del movimiento de personas captadas desde una cámara. El sistema podría aislar la persona, estudiar sus movimientos, estimar peso y altura y cotejar todos estos patrones con una base de datos de sospechosos para poder ofrecer alertas tempranas en entornos que requieren actuaciones proactivas de seguridad (edificios gubernamentales, aeropuertos, etc.).

El olor corporal también es una característica que nos define y que es única de cada persona. De la misma forma que un perro puede encontrar a una persona a partir de un patrón de referencia (ropa usada), podríamos plantear un sistema que pudiese realizar, de manera artificial, el mismo tipo de identificación.

A este tipo de técnicas se las conoce como biométrica olfatoria y la Universidad Politécnica de Madrid se situó como referente en este área hace un par de años a raíz de un estudio que arrojaba que, a partir del olor, se podían alcanzar tasas de identificación de hasta el 85% de acierto (aunque es una tecnología que aún necesita tiempo de maduración).

Así que, aunque te tapes la cara para evitar las cámaras de seguridad, tus huellas dactilares, tu voz, tu manera de andar e, incluso, tu olor podrán delatarte y revelar tu identidad.

Imagen inicio: Steve Jurvetson (Flickr)

Comentarios cerrados
Inicio