Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/96064 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_fd0818a32de89aea3a4509b3fc2a8bce |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/96064 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISIONIntelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISIONAprendizagem ComputacionalAprendizagem ProfundaVisão ComputacionalProcessamento de Linguagem NaturalReconhecimento Ótico de CaracteresMachine LearningDeep LearningComputer VisionNatural Language ProcessingOptical Character RecognitionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaProcessos em organizações ao longo dos últimos anos têm sido cada vez mais automatizados de forma torná-los mais eficientes e práticos, no entanto, uma área em que o trabalho manual ainda é comum é a de análise de documentos. Nesta área, devido à ubiquidade trazida por meios eletrónicos, a submissão de documentos tem sido feita principalmente em formato digital. Intervenção humana ainda é frequente na análise destes documentos para tarefas como validação, extração de informação e classificação. Esta análise manual tem custos elevados em termos de tempo, desempenho e possibilidade de erro humano que pode ter consequências graves em ambientes críticos.Critical Software (CSW) tem atualmente em desenvolvimento uma solução que aborda este problema, utilizando tecnologias da área de Visão Computacional (CV), Aprendizagem Computacional (ML) e Processamento de Linguagem Natural (NLP). A solução consiste num sistema de Validação Inteligente de Documentos (IDV) que valida a autenticidade dos documentos submetidos e também extrai informação útil dos mesmos de forma a tornar o processo mais eficiente e menos suscetível a erros. Este desafio é o foco principal do estágio na empresa CSW com duração de um ano letivo. Em resumo, as etapas de desenvolvimento são: treino e otimização individual de modelos textuais e visuais recorrendo a abordagens de última geração e também a recursos já em uso pela empresa, seguido da criação de modelos de ensemble e finalmente treino e otimização de um modelo híbrido baseado em técnicas utilizadas na literatura e respetiva análise de resultados.Processes in organizations over the past few years have been increasingly automated in order to make them more efficient and practical, however, one area in which manual work is still common is document analysis. In this area, due to the ubiquity brought by electronic means, the submission of documents has been made, primarily, in digital format. Human intervention is still frequent in the analysis of these documents for tasks such as validation, information extraction and classification. This manual analysis has high costs in terms of time, performance, and possibility of human error which could have serious consequences in critical environments.Critical Software (CSW) has currently under development a solution that addresses this problem, using technologies in the area of Computer Vision (CV), Machine Learning (ML) and Natural Language Processing (NLP). The solution consists of an Intelligent Document Validation (IDV) system that validates the authenticity of the submitted documents and also extracts useful information from them in order to make the process more efficient and less susceptible to errors. At this internship the objective is to develop a hybrid IDV solution, which use textual and visual characteristics for document classification, and that can improve performance in relation to current models and, simultaneously, ensure robustness in the training of the IDV for new types of documents. This challenge is the main focus of the internship at CSW company lasting one academic year. In summary, the stages of development are: individual training and optimization of textual and image-based models using know state of the art approaches and also already in-use company resources, followed by the creation of ensemble models and finally hybrid model training and optimization based on state-of-the-art-work ending on results analysis.2021-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/96064http://hdl.handle.net/10316/96064TID:202778150engPais, Eduardo de Souzainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T04:16:56Zoai:estudogeral.uc.pt:10316/96064Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:14:25.245965Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
title |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
spellingShingle |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION Pais, Eduardo de Souza Aprendizagem Computacional Aprendizagem Profunda Visão Computacional Processamento de Linguagem Natural Reconhecimento Ótico de Caracteres Machine Learning Deep Learning Computer Vision Natural Language Processing Optical Character Recognition |
title_short |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
title_full |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
title_fullStr |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
title_full_unstemmed |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
title_sort |
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION |
author |
Pais, Eduardo de Souza |
author_facet |
Pais, Eduardo de Souza |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pais, Eduardo de Souza |
dc.subject.por.fl_str_mv |
Aprendizagem Computacional Aprendizagem Profunda Visão Computacional Processamento de Linguagem Natural Reconhecimento Ótico de Caracteres Machine Learning Deep Learning Computer Vision Natural Language Processing Optical Character Recognition |
topic |
Aprendizagem Computacional Aprendizagem Profunda Visão Computacional Processamento de Linguagem Natural Reconhecimento Ótico de Caracteres Machine Learning Deep Learning Computer Vision Natural Language Processing Optical Character Recognition |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/96064 http://hdl.handle.net/10316/96064 TID:202778150 |
url |
http://hdl.handle.net/10316/96064 |
identifier_str_mv |
TID:202778150 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134041436323840 |