• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
Document
Auteur
Nom complet
Nury Yuleny Arosquipa Yanque
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2018
Directeur
Jury
Hirata Junior, Roberto (Président)
Gomi, Edson Satoshi
Torres, Gustavo Enrique Salazar
Titre en portugais
Um estudo comparativo de métodos de segmentação de documentos antigos
Mots-clés en portugais
Binarização de imagens
Documentos históricos
Limiarização
OCR
Segmentação de documentos
Resumé en portugais
Há uma vasta quantidade de informação nos textos antigos manuscritos e tipografados, e grandes esforços para a digitalização e disponibilização desses documentos têm sido feitos nos últimos anos. No entanto, os sistemas de Reconhecimento Óptico de Caracteres (OCR) não têm grande sucesso nesses documentos por diversas razões, por exemplo, devido a defeitos por envelhecimento do papel, manchas, iluminação desigual, dobras, escrita do verso transparecendo na frente, pouco contraste entre texto e fundo, entre outros. Uma das etapas importantes para o sucesso de um OCR é a boa segmentação da parte escrita e do fundo da imagem (binarização) e essa etapa é particularmente sensível a esses efeitos que são próprios de documentos históricos. Tanto assim que nos últimos oito anos foram realizadas competições de métodos de binarização de documentos históricos que levaram ao avanço do estado da arte na área. Neste trabalho fizemos um estudo comparativo de diversos métodos de segmentação de documentos antigos e propusemos um método baseado em aprendizado de máquina que resgata as vantagens dos métodos heurísticos. Esse estudo abrangeu documentos históricos manuscritos e tipografados e foi comparado com os métodos do estado da arte via métricas usuais e via um sistema de OCR de código aberto. Os resultados obtidos pelo método proposto são comparáveis com os métodos do estado da arte respeito no resultado do OCR, mostrando algumas vantagens em imagens específicas.
Titre en anglais
A comparative study of segmentation methods of historical documents
Mots-clés en anglais
Documents segmentation
Historical documents
Image binarization
OCR
Thresholding
Resumé en anglais
There is a vast amount of information in the ancient handwritten and machine-printed texts, and great efforts for the digitization and availability of these documents have been made in recent years. However, Optical Character Recognition (OCR) systems do not have much success in these documents for a variety of reasons, for example, due to paper aging defects, faded ink, stains, uneven lighting, folds, bleed-through, gosthing, poor contrast between text and background, among others. One of the important steps for the success of an OCR system is the good segmentation of the written part and the background of the image (binarization) and this step is particularly sensitive to those defects that are typical of historical documents. So much so that in the last eight years a competition for the binarization methods of historical documents have been held which led to the advance of the state of the art in the area. In this work we have done a comparative study of several methods of segmentation of historical documents and propose a method based on machine learning that rescues the advantages of the heuristic methods. This study covered both handwritten and typography historical documents and was compared to state-of-the-art methods via DIBCO standard metrics and via an open source OCR system. The results obtained by the proposed method are comparable with the methods of the state of the art respect in the OCR result, showing some advantages in specific images.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2019-09-25
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2020. Tous droits réservés.