Publicidad

AWS añade el español a Textract, su herramienta de reconocimiento de texto

AWS añade el español a Textract, su herramienta de reconocimiento de texto
Sin comentarios

Textract es un servicio de AWS que extrae texto impreso y otros datos de documentos, así como tablas y formularios, utilizando aprendizaje automático. Textract ahora reconoce la escritura a mano en documentos en inglés, pero también es capaz de funcionar con archivos escritos en español, portugués, francés, alemán e italiano.

Se trata de un servicio en la nube que utiliza el aprendizaje automático para analizar tablas de datos, formularios y páginas completas en busca de texto y datos. Es capaz de averiguar el contenido de los campos y tablas y el contexto en el que se presenta esta información, como nombres y números de seguridad social en formularios de impuestos. También es capaz de reconocer el total de una factura incluso cuando está fotografiada.

Esta herramienta admite formatos de imagen (JPG o PNG) como escaneos, archivos PDF y fotos, y soporta una variedad de formatos de documentos, incluidos los específicos de servicios financieros, seguros y atención médica.

Textract muestra los resultados en forma de texto JSON anotado con el número de página, sección, etiquetas de formulario y tipos de datos a través de una API. Además, se puede integrar con servicios de análisis y bases de datos y los datos extraídos se pueden introducir directamente en aplicaciones de terceros como software de contabilidad, auditoría y cumplimiento o para crear búsquedas inteligentes en archivos de documentos.

Reconocimiento de escritura manual

AWS ha decidido mejorar esta herramienta con el reconocimiento de manuscritos porque, según explica, muchos formularios contienen una combinación de texto escrito a mano e impreso.

Sin embargo, de momento esta función solo está disponible en inglés, aunque se espera que pueda hacerlo a lo largo del tiempo en otros idiomas.

Cabe recordar que, recientemente, Google también anunció una herramienta parecida DocAI, que también promete un escaneo y tratamiento de los datos más fácil y sencillo.

Temas

Publicidad

Publicidad

Publicidad

Inicio