Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.

Detalhes bibliográficos
Autor(a) principal: FARIAS, Walisson Nascimento de.
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/34848
Resumo: O reconhecimento óptico de caracteres (OCR) desempenha um papel fundamental na digitalização e processamento de documentos pessoais, no entanto, enfrenta desafios significativos de precisão e eficiência, visto que as ferramentas que realizam OCR ainda dependem muito da qualidade da entrada de dados e das condições em que os documentos são escaneados ou fotografados. Para aperfeiçoar o reconhecimento óptico de caracteres (OCR), propõe-se a utilização da combinação de técnicas de pré-processamento e pós-processamento a fim de melhorar a qualidade do OCR. O processo inicia-se através da coleta de um conjunto de dados representativo de imagens de documentos pessoais. Após a coleta, realiza-se o pré-processamento e pós-processamento das imagens, seguindo então do OCR e a utilização de uma métrica que avalia o OCR obtido. As técnicas de pré-processamento incluíram modificação do DPI das imagens, suavização da imagem e conversão para escala de cinza, seguida pela aplicação do OCR. Além disso, houve um pós-processamento para remover a acentuação do texto extraído e convertê-lo em letras maiúsculas. Os resultados indicaram que o pré-processamento melhorou significativamente a precisão do OCR para documentos de identidade (RG), aumentando o F1-Score de 0.33 (sem pré-processamento) para 0.53 (com pré-processamento). Para imagens de CPF, o pré-processamento resultou em uma precisão de 73.48% e uma taxa de erro de 26.52%, enquanto o OCR sem pré-processamento teve uma precisão de 36.46% e uma taxa de erro de 63.54%. Este estudo visa investigar técnicas com o propósito de melhorar o reconhecimento óptico de caracteres em documentos pessoais, contribuindo para maior precisão do OCR, com potenciais benefícios para aplicações que realizam a extração de conteúdo de imagens de documentos pessoais.
id UFCG_0887a91082ac3b5b189bfd04844a9904
oai_identifier_str oai:localhost:riufcg/34848
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling GOMES, Herman Martins.GOMES, H. M.http://lattes.cnpq.br/4223020694433271PEREIRA, Eanes Torres.PEREIRA, E. T.http://lattes.cnpq.br/2030738304003254BRASILEIRO, Francisco Vilar.BRASILEIRO, F.http://lattes.cnpq.br/5957855817378897FARIAS, W. N.http://lattes.cnpq.br/5834360324217282FARIAS, Walisson Nascimento de.O reconhecimento óptico de caracteres (OCR) desempenha um papel fundamental na digitalização e processamento de documentos pessoais, no entanto, enfrenta desafios significativos de precisão e eficiência, visto que as ferramentas que realizam OCR ainda dependem muito da qualidade da entrada de dados e das condições em que os documentos são escaneados ou fotografados. Para aperfeiçoar o reconhecimento óptico de caracteres (OCR), propõe-se a utilização da combinação de técnicas de pré-processamento e pós-processamento a fim de melhorar a qualidade do OCR. O processo inicia-se através da coleta de um conjunto de dados representativo de imagens de documentos pessoais. Após a coleta, realiza-se o pré-processamento e pós-processamento das imagens, seguindo então do OCR e a utilização de uma métrica que avalia o OCR obtido. As técnicas de pré-processamento incluíram modificação do DPI das imagens, suavização da imagem e conversão para escala de cinza, seguida pela aplicação do OCR. Além disso, houve um pós-processamento para remover a acentuação do texto extraído e convertê-lo em letras maiúsculas. Os resultados indicaram que o pré-processamento melhorou significativamente a precisão do OCR para documentos de identidade (RG), aumentando o F1-Score de 0.33 (sem pré-processamento) para 0.53 (com pré-processamento). Para imagens de CPF, o pré-processamento resultou em uma precisão de 73.48% e uma taxa de erro de 26.52%, enquanto o OCR sem pré-processamento teve uma precisão de 36.46% e uma taxa de erro de 63.54%. Este estudo visa investigar técnicas com o propósito de melhorar o reconhecimento óptico de caracteres em documentos pessoais, contribuindo para maior precisão do OCR, com potenciais benefícios para aplicações que realizam a extração de conteúdo de imagens de documentos pessoais.Optical character recognition (OCR) plays a key role in the digitization and processing of personal documents, however, it faces accuracy and efficiency challenges, since the tools that perform OCR still depend heavily on the quality of the input data and the conditions in which the documents are scanned or photographed. To improve optical character recognition, it is proposed a combination of pre-processing and post-processing techniques to improve OCR quality. The process begins by collecting a representative dataset of images of personal documents. After that, the images are pre-processed and post-processed, followed by OCR and the use of a metric that evaluates the OCR obtained. Pre-processing techniques included modifying the DPI of the images, smoothing the image and converting it to grayscale, followed by the application of OCR. In addition, post-processing was carried out to remove accents marks from the extracted text and convert it into capital letters. The results indicated that pre-processing method significantly improved OCR accuracy for identity documents (ID), increasing the F1-Score from 0.33 (without pre-processing) to 0.53 (with pre-processing). For CPF images, pre-processing procedure resulted in an accuracy of 73.48% and an error rate of 26.52%, while OCR without pre-processing had an accuracy of 36.46% and an error rate of 63.54%. This study aims to investigate techniques for improving optical character recognition in personal documents, contributing to greater OCR accuracy, with potential benefits for applications that extract content from personal document images.Submitted by Severina Oliveira (severina.sueli@ufcg.edu.br) on 2024-03-02T14:11:07Z No. of bitstreams: 1 WALISSON NASCIMENTO DE FARIAS-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdf: 890052 bytes, checksum: eab53a4ce2cdfe34bdb73790ad0d3802 (MD5)Made available in DSpace on 2024-03-02T14:11:07Z (GMT). No. of bitstreams: 1 WALISSON NASCIMENTO DE FARIAS-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdf: 890052 bytes, checksum: eab53a4ce2cdfe34bdb73790ad0d3802 (MD5) Previous issue date: 2023-11-17Universidade Federal de Campina GrandeUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoReconhecimento Óptico de Caracteres (OCR)Documentos PessoaisPré-ProcessamentoOptical Character Recognition (OCR)Personal DocumentsPre-ProcessingAperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.Improving optical character recognition in personal document images.2023-11-172024-03-02T14:11:07Z2024-03-022024-03-02T14:11:07Zhttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/34848FARIAS, Walisson Nascimento de. Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais. 2023. 11 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/34848/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALWALISSON NASCIMENTO DE FARIAS-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdfWALISSON NASCIMENTO DE FARIAS-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdfapplication/pdf890052http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/34848/1/WALISSON+NASCIMENTO+DE+FARIAS-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282023%29.pdfeab53a4ce2cdfe34bdb73790ad0d3802MD51riufcg/348482024-03-02 11:11:07.821oai:localhost:riufcg/34848Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512024-07-01T10:42:27.689067Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
dc.title.alternative.pt_BR.fl_str_mv Improving optical character recognition in personal document images.
title Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
spellingShingle Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
FARIAS, Walisson Nascimento de.
Ciência da Computação
Reconhecimento Óptico de Caracteres (OCR)
Documentos Pessoais
Pré-Processamento
Optical Character Recognition (OCR)
Personal Documents
Pre-Processing
title_short Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
title_full Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
title_fullStr Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
title_full_unstemmed Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
title_sort Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais.
author FARIAS, Walisson Nascimento de.
author_facet FARIAS, Walisson Nascimento de.
author_role author
dc.contributor.advisor1.fl_str_mv GOMES, Herman Martins.
dc.contributor.advisor1ID.fl_str_mv GOMES, H. M.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4223020694433271
dc.contributor.referee1.fl_str_mv PEREIRA, Eanes Torres.
dc.contributor.referee1ID.fl_str_mv PEREIRA, E. T.
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/2030738304003254
dc.contributor.referee2.fl_str_mv BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID.fl_str_mv BRASILEIRO, F.
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/5957855817378897
dc.contributor.authorID.fl_str_mv FARIAS, W. N.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5834360324217282
dc.contributor.author.fl_str_mv FARIAS, Walisson Nascimento de.
contributor_str_mv GOMES, Herman Martins.
PEREIRA, Eanes Torres.
BRASILEIRO, Francisco Vilar.
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Reconhecimento Óptico de Caracteres (OCR)
Documentos Pessoais
Pré-Processamento
Optical Character Recognition (OCR)
Personal Documents
Pre-Processing
dc.subject.por.fl_str_mv Reconhecimento Óptico de Caracteres (OCR)
Documentos Pessoais
Pré-Processamento
Optical Character Recognition (OCR)
Personal Documents
Pre-Processing
description O reconhecimento óptico de caracteres (OCR) desempenha um papel fundamental na digitalização e processamento de documentos pessoais, no entanto, enfrenta desafios significativos de precisão e eficiência, visto que as ferramentas que realizam OCR ainda dependem muito da qualidade da entrada de dados e das condições em que os documentos são escaneados ou fotografados. Para aperfeiçoar o reconhecimento óptico de caracteres (OCR), propõe-se a utilização da combinação de técnicas de pré-processamento e pós-processamento a fim de melhorar a qualidade do OCR. O processo inicia-se através da coleta de um conjunto de dados representativo de imagens de documentos pessoais. Após a coleta, realiza-se o pré-processamento e pós-processamento das imagens, seguindo então do OCR e a utilização de uma métrica que avalia o OCR obtido. As técnicas de pré-processamento incluíram modificação do DPI das imagens, suavização da imagem e conversão para escala de cinza, seguida pela aplicação do OCR. Além disso, houve um pós-processamento para remover a acentuação do texto extraído e convertê-lo em letras maiúsculas. Os resultados indicaram que o pré-processamento melhorou significativamente a precisão do OCR para documentos de identidade (RG), aumentando o F1-Score de 0.33 (sem pré-processamento) para 0.53 (com pré-processamento). Para imagens de CPF, o pré-processamento resultou em uma precisão de 73.48% e uma taxa de erro de 26.52%, enquanto o OCR sem pré-processamento teve uma precisão de 36.46% e uma taxa de erro de 63.54%. Este estudo visa investigar técnicas com o propósito de melhorar o reconhecimento óptico de caracteres em documentos pessoais, contribuindo para maior precisão do OCR, com potenciais benefícios para aplicações que realizam a extração de conteúdo de imagens de documentos pessoais.
publishDate 2023
dc.date.issued.fl_str_mv 2023-11-17
dc.date.accessioned.fl_str_mv 2024-03-02T14:11:07Z
dc.date.available.fl_str_mv 2024-03-02
2024-03-02T14:11:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/34848
dc.identifier.citation.fl_str_mv FARIAS, Walisson Nascimento de. Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais. 2023. 11 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/34848
identifier_str_mv FARIAS, Walisson Nascimento de. Aperfeiçoando o reconhecimento óptico de caracteres em imagens de documentos pessoais. 2023. 11 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/34848/2/license.txt
http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/34848/1/WALISSON+NASCIMENTO+DE+FARIAS-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282023%29.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
eab53a4ce2cdfe34bdb73790ad0d3802
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1803396927724716032