Los sistemas de reconocimiento van a tener que pasar exámenes para establecer lo eficaces que van a ser unos respecto a otros, sea como sea, lo que parece que prima para evaluar su nivel son dos parámetros: velocidad en la identificación de los elementos, y reconocimiento de lo que ocurre en la escena.
En el negocio de los vehículos inteligentes que está floreciendo, el reconocimiento de todo lo que nos rodea al paso, a la máxima velocidad, se vuelve vital para validar e integrar esos sistemas en nuestro día a día. Un buen ejemplo lo tenemos en el trabajo de la Universidad de San Diego, que consigue que ordenadores reconozcan peatones velocidades cercanas a la que lo haría un humano.
Los ingenieros a cargo del proyecto están dando un gran paso adelante en este campo, creando un sistema de detección de peatones que funciona - casi - en tiempo real, tarda de 2 a 4 imágenes por segundo en reconocer nuevos individuos, mientras vamos en movimiento.
Además, lo hace con un nivel de acierto mucho mejor que sistemas anteriores, nos dicen que el error se reduce a la mitad.
El deep learning o aprendizaje profundo tiene mucho que decir en esta evolución, basando su aprendizaje en procesos automático que se nutren de nuestra interacción, también de lo que hacen otros. La misión es conseguir crear una visión para los ordenadores que les permita entender mejor qué hay a su alrededor.
Dos modelos de reconocimiento en uno
Además del citado modelo basado en deep learning, el sistema combina métodos de reconocimiento tradicionales, como la detección en cascada. Se usa en las primeras fases de reconocimiento y en él se divide la imagen en muchas zonas y se tiende a identificar rápidamente las zonas donde no hay peatones - por ejemplo, el cielo -. Las descarta para seguir con la búsqueda.
Lo típico es que un sistema de reconocimiento basado únicamente en clasificadores en cascada esté detectando elementos a una velocidad de 5 a 30 imágenes por segundo. Este método tiene un coste computacional más bajo.
El siguiente paso del proceso es coger porciones de la imagen y buscar elementos reconocibles a toda velocidad, aquí se empiezan a buscar formas, colores y contornos que pueden casar con un ser humano. En una última fase, el algoritmo tiene que distinguir entre peatones y elementos muy parecidos.
Es en las fases finales donde se pone a funcionar el aprendizaje profundo, que han sido entrenados con miles de ejemplos y son mejores para reconocimiento de patrones complejos. Nos cuentan que antes no tendría sentido aplicarlo, sería muy complicado computacionalmente, y hay que dejarle el trabajo algo mascado.
Más información | UC San Diego
Ver 5 comentarios