Cualquier objeto puede ser un micrófono: recuperando sonido a partir de un vídeo

Casi cualquier objeto puede convertirse en micrófono, o al menos eso es lo que defiende un grupo de investigadores del MIT con la colaboración de Microsoft y Adobe Research. Para ello, han desarrollado un algoritmo que analiza los movimientos que se producen en un objeto cuando a éste le llega un sonido. Estas pequeñas vibraciones se recogen a través de una videocámara de alta velocidad, grabando a más de 5000 frames por segundo.

"El movimiento de esta vibración crea una señal casi imperceptible e invisible para el ojo humano", explica uno de los investigadores. En el vídeo que os dejamos a continuación nos muestran varios ejemplos. En uno de ellos, un altavoz hace que las hojas de una planta se muevan levemente. En otro son capaces de detectar el sonido en una bolsa de patatas vacía incluso con un cristal separando la bolsa y la propia fuente de sonido.

En el sitio web oficial de estos investigadores podéis ver más ejemplos, con el tipo de vídeo grabado, el sonido emitido y el sonido recuperado. La calidad no es tan buena como en el sonido original, pero en la mayoría de ellos se puede distinguir muy bien lo que se está diciendo. Incluso en uno de ellos pasan la canción por Shazam, que es capaz de identificarla.

¿Significa esto que seremos capaces de saber lo que cualquiera está diciendo a partir de un vídeo de un objeto cercano? No es tan fácil, ya que como decimos para recuperar el sonido de manera casi exacta se necesita una grabación de alta velocidad (el número de frames por segundo tiene que ser superior a la frecuencia del sonido que queremos identificar). Sin embargo, han hecho pruebas con una versión de su algoritmo y con cámaras como las que incluyen los smartphones, que típicamente graban a 60 fps, y también han sido capaces de recuperar alguna información, como el número de interlocutores y su género. En el caso de melodías, una melodía similar (minuto 4:00 del vídeo).

Las propias limitaciones de los sensores de los smartphones hacen posible que este algoritmo funcione con cámaras baratas de pocos fps

Esto es posible gracias a cómo están diseñadas las cámaras para teléfonos: para que sea más barato, se diseñan los fotodetectores para que lean información por filas. En movimientos muy rápidos (altas frecuencias), el objeto a fotografiar puede cambiar de posición de fila a fila, produciendo efectos extraños en la foto final. Ponen de ejemplo las hélices de este helicóptero, que se ven dobladas. Pero esta distorsión al captar la imagen permite a los investigadores saber qué variaciones se están produciendo en la posición del objeto sin necesidad de un equipo caro que grabe a gran velocidad.

"Estamos recuperando sonidos a partir de objetos. Esto nos da mucha información sobre el sonido que está actuando alrededor del objeto, pero también nos da mucha información sobre el objeto en sí, ya que diferentes objetos responderán al sonido de distinta forma", dice uno de los investigadores. Y así ha sido: han probado con todo tipo de objetos: desde bolsas a cosas más sólidas como una tetera, y todos ellos han servido de "micrófonos" improvisados. Toma nota, NSA, aunque ¿quién dice que no lo estén aplicando ya?

Más información | Paper completo
Vía | MIT

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios