End-to-end system for extracting and interpreting testual information of interest from identify documents images.

Gutiérrez Menéndez, José Carlos

doi:10.11606/D.3.2019.tde-19112019-100543

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.3.2019.tde-19112019-100543

Documento

Disertación de Maestría

Autor

Gutiérrez Menéndez, José Carlos (Catálogo USP)

Nombre completo

José Carlos Gutiérrez Menéndez

Dirección Electrónica

Instituto/Escuela/Facultad

Escola Politécnica

Área de Conocimiento

Ingeniería Informática

Fecha de Defensa

2019-05-14

Publicación

São Paulo, 2019

Director

Bressan, Graça (Catálogo USP)

Tribunal

Bressan, Graça (Presidente)
Potts, Alain Segundo
Silva, Flavio Soares Correa da

Título en inglés

End-to-end system for extracting and interpreting testual information of interest from identify documents images.

Palabras clave en inglés

Identification documents
Named entity recognition and classification
Text recognition

Resumen en inglés

Identity documents (ID) are one of the primary sources for obtaining information about a citizen. The center of many applications within the administrative and service sectors is the extraction of the data contained in ID cards. Therefore, in this research is proposed the implementation of an automated system able to extract and interpret the textual information from identity documents images. The proposed end-to-end system allows the automation of a registration or verification process that requires the acquisition of information about a citizen using his identity documents. The system obtained through this research is considered as an end-to-end system since it covers every stage of the information of interest extraction process from IDs images. Different to the template-based systems, the proposed system uses a semantic attribution algorithm that allows to classify and attribute meaning to the information from IDs according to its semantics. This research is the first comprehensive description of a complete information extraction system to process IDs that describes from image processing to named entity recognition. To evaluate the performance of the research were proposed different metrics based on the internal functions of the system. The final evaluation shows satisfactory results showing that the end-to-end system is capable of extracting and interpreting textual information from identity documents images without prior knowledge of their layouts.

Título en portugués

Sistema de ponta a ponta para extração e interpretação das informações de interesse textuais a partir de imagens de documentos de identidade.

Palabras clave en portugués

Documentos
Identificação
Reconhecimento de texto
Reconhecimento e classificação da entidade nomeada

Resumen en portugués

Os documentos de identidade (ID) são uma das principais fontes para obter informações sobre um cidadão. O centro de muitas aplicações nos setores administrativos e de serviços é a extração dos dados contidos nos cartões de identificação. Portanto, nesta pesquisa é proposta a implementação de um sistema automatizado capaz de extrair e interpretar as informações textuais a partir de imagens de documentos de identidade. O sistema de ponta a ponta proposto permite a automação de um processo de registro ou verificação que requer a aquisição de informações sobre um cidadão usando seus documentos de identidade. O sistema obtido através desta pesquisa é considerado como um sistema de ponta a ponta, uma vez que abrange todas as etapas do processo de extração das informações de interesse a partir de imagens de IDs. Diferente dos sistemas baseados em modelos, o um algoritmo de atribuição semântica que permite classificar e atribuir significado às informações dos IDs baseado nas semânticas destas. Esta pesquisa é a primeira descrição abrangente de um sistema completo de extração de informações para processar IDs que descreve desde o processamento da imagem até o reconhecimento da entidade nomeada. Para avaliar o desempenho da pesquisa, foram propostas diferentes métricas baseadas nas funções internas do sistema. A avaliação final mostra resultados satisfatórios indicando que o sistema de ponta a ponta é capaz de extrair e interpretar informações textuais de imagens de documentos de identidade sem conhecimento prévio de seus layouts.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

JoseCarlosGutierrezMenendezOrig19.pdf (4.38 Mbytes)

Fecha de Publicación

2019-11-19

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.

Todos los derechos de la tesis/disertación pertenecen a los autores.
CeTI-SC/STI
© 2001-2024. Biblioteca Digital de Tesis y Disertaciones de la USP.