Microsoft borró el mayor dataset de fotos dedicado al reconocimiento facial tras detectarse problemas de privacidad en el mismo

Microsoft borró el mayor dataset de fotos dedicado al reconocimiento facial tras detectarse problemas de privacidad en el mismo
8 comentarios Facebook Twitter Flipboard E-mail

El presidente de Microsoft, Brad Smith, solicitó el año pasado al Congreso que tomara medidas para regular de forma adecuada la tecnología de reconocimiento facial, recordando a los legisladores las "amplias ramificaciones sociales" de su uso y el potencial mal uso.

Pero la preocupación de la compañía por este asunto no se ha traducido únicamente en peticiones a los políticos, sino que también en decisiones empresariales: el año pasado, por ejemplo, decidió bloquear las ventas de esta tecnología a fuerzas policiales de California.

Ahora, ha ido un paso más allá, eliminando discretamente su base de datos MS Celeb, que contenía más de 10 millones de fotos de aproximadamente 100.000 personas. Aunque quizá lo haya hecho forzado por las circunstancias.

¿Por qué había acumulado Microsoft las fotos de un centenar de miles de rostros?

Contar con esta clase de bases de datos es un requisito para avanzar en el desarrollo de tecnología de reconocimiento facial. Sin ellas, no se podría entrenar a los modelos de IA en el reconocimiento de los patrones específicos que diferencian a los rostros humanos de cualquier otro elemento que pueda aparecer en un vídeo o imagen; ni tampoco enseñarle a diferenciar rostros según características demográficas (género, edad o etnia, por ejemplo).

Cuando se creó MS Celeb, hace ahora 3 años, Microsoft la presentó como el mayor dataset del mundo enfocado al reconocimiento facial. Aprovechando que los propietarios de los rostros que contenía eran personalidades públicas, la compañía no requirió su permiso para pasar a engrosar su base de datos.

Diseñado originalmente para entrenar herramientas enfocadas al subtitulado de imágenes y al análisis de noticias de vídeo, a partir de ese momento, el dataset se puso a disposición de investigadores, organismos públicos y compañías tecnológicas. Y, que se sepa, lo usaron para sus propios proyectos empresas como Nvidia, Hitachi, IBM, Panosonic y los gigantes chinos Sensetime, Megvii y Alibaba.

Problemas de privacidad y asuntos "protocolarios"

Sin embargo, un investigador llamado Adam Harvey, responsable del proyecto Megapixels, dedicado a analizar "la ética, orígenes y consecuencias para la privacidad de los individuos" de la existencia de esta clase de datasets, denunció que MS Celeb incluía también imágenes de personas ajenas a la esfera pública, lo que desató una investigación del Financial Times acerca del papel esta clase de datasets.

Como consecuencia de dicha investigación el FT descubrió que otros grandes datasets también habían sido eliminados en los últimos tiempos, mencionando explícitamente el 'Brainwash' de la Universidad de Stanford (que contenía fotos tomadas de un café de la ciudad que emitía en streaming), y el 'Duke MTMC' de la Universidad de Duke.

Aunque la entrada en vigor en la UE de la Ley General de Protección de Datos podría haber sido un buen motivo para tomar la decisión de suprimir MS Celeb, la compañía aseguró no haber actuado movida por las obligaciones legales, sino por una mera cuestión de protocolo: el dataset, "destinado a fines exclusivamente académicos", estaba administrado "por un empleado que ya no está en Microsoft".

Sin embargo, Adam Harvey recuerda que los problemas de privacidad que haya podido causar MS Celeb no terminan aquí:

"No puedes hacer que desaparezca un dataset. Una vez que lo publicas y la gente se lo descarga, existe en los discos duros de todo el mundo.

Ahora la gente lo está publicando en GitHub, está alojando los archivos en Dropbox y Baidu Cloud, por lo que no hay manera de impedirles continuar publicándolo, o usarlo para sus propios fines".

Vía | Financial Times

Imagen | via www.vpnsrus.com

Comentarios cerrados
Inicio