CEPAD: Classificação e processamento automatizado de documento

Detalhes bibliográficos
Autor(a) principal: Borges, Rui Pedro Pinto
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.26/43136
Resumo: A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.
id RCAP_3d413ed9a64e4add44dc48d492da2341
oai_identifier_str oai:comum.rcaap.pt:10400.26/43136
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling CEPAD: Classificação e processamento automatizado de documentoAprendizagem de MáquinaReconhecimento de Entidades NomeadasFaturação EletrónicaDesenvolvimento WebMachine LearningNamed Entity RecognitionE-InvoicingWeb DevelopmentA maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.Most invoicing today continues to use paper. The digitization of this type of document processing promises to present financial and quality advantages. It was then intended to study the possibility of developing a tool that, using Machine Learning, helped identify and categorize the fields present in an invoice. As a starting point for the development, the state of the art of various fields of study was studied, such as Machine Learning, Optical Character Recognition, and classification tasks, followed by an analysis of possible users, requirements gathering, and modeling of the system to be developed. Having collected the data that allowed the training of a Machine Learning model, an application was developed capable of managing documents and processing them, allowing its users to validate the inferred data, save the results of this processing and export several results simultaneously. The final model has an accuracy rate of 69% when considering exact and partially correct results, with an average Levenshtein Distance of 4, thus aiding invoice processing. Finally, some proposals for future work and areas that could benefit from tools that use the same technology as the developed application are presented.Gonçalves, Nuno PinaRepositório ComumBorges, Rui Pedro Pinto2023-01-11T14:40:09Z2022-122022-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.26/43136TID:203250869porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T09:57:24Zoai:comum.rcaap.pt:10400.26/43136Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:12:46.007584Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv CEPAD: Classificação e processamento automatizado de documento
title CEPAD: Classificação e processamento automatizado de documento
spellingShingle CEPAD: Classificação e processamento automatizado de documento
Borges, Rui Pedro Pinto
Aprendizagem de Máquina
Reconhecimento de Entidades Nomeadas
Faturação Eletrónica
Desenvolvimento Web
Machine Learning
Named Entity Recognition
E-Invoicing
Web Development
title_short CEPAD: Classificação e processamento automatizado de documento
title_full CEPAD: Classificação e processamento automatizado de documento
title_fullStr CEPAD: Classificação e processamento automatizado de documento
title_full_unstemmed CEPAD: Classificação e processamento automatizado de documento
title_sort CEPAD: Classificação e processamento automatizado de documento
author Borges, Rui Pedro Pinto
author_facet Borges, Rui Pedro Pinto
author_role author
dc.contributor.none.fl_str_mv Gonçalves, Nuno Pina
Repositório Comum
dc.contributor.author.fl_str_mv Borges, Rui Pedro Pinto
dc.subject.por.fl_str_mv Aprendizagem de Máquina
Reconhecimento de Entidades Nomeadas
Faturação Eletrónica
Desenvolvimento Web
Machine Learning
Named Entity Recognition
E-Invoicing
Web Development
topic Aprendizagem de Máquina
Reconhecimento de Entidades Nomeadas
Faturação Eletrónica
Desenvolvimento Web
Machine Learning
Named Entity Recognition
E-Invoicing
Web Development
description A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.
publishDate 2022
dc.date.none.fl_str_mv 2022-12
2022-12-01T00:00:00Z
2023-01-11T14:40:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.26/43136
TID:203250869
url http://hdl.handle.net/10400.26/43136
identifier_str_mv TID:203250869
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135401647013888