Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION

Detalhes bibliográficos
Autor(a) principal: Pais, Eduardo de Souza
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/96064
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_fd0818a32de89aea3a4509b3fc2a8bce
oai_identifier_str oai:estudogeral.uc.pt:10316/96064
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISIONIntelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISIONAprendizagem ComputacionalAprendizagem ProfundaVisão ComputacionalProcessamento de Linguagem NaturalReconhecimento Ótico de CaracteresMachine LearningDeep LearningComputer VisionNatural Language ProcessingOptical Character RecognitionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaProcessos em organizações ao longo dos últimos anos têm sido cada vez mais automatizados de forma torná-los mais eficientes e práticos, no entanto, uma área em que o trabalho manual ainda é comum é a de análise de documentos. Nesta área, devido à ubiquidade trazida por meios eletrónicos, a submissão de documentos tem sido feita principalmente em formato digital. Intervenção humana ainda é frequente na análise destes documentos para tarefas como validação, extração de informação e classificação. Esta análise manual tem custos elevados em termos de tempo, desempenho e possibilidade de erro humano que pode ter consequências graves em ambientes críticos.Critical Software (CSW) tem atualmente em desenvolvimento uma solução que aborda este problema, utilizando tecnologias da área de Visão Computacional (CV), Aprendizagem Computacional (ML) e Processamento de Linguagem Natural (NLP). A solução consiste num sistema de Validação Inteligente de Documentos (IDV) que valida a autenticidade dos documentos submetidos e também extrai informação útil dos mesmos de forma a tornar o processo mais eficiente e menos suscetível a erros. Este desafio é o foco principal do estágio na empresa CSW com duração de um ano letivo. Em resumo, as etapas de desenvolvimento são: treino e otimização individual de modelos textuais e visuais recorrendo a abordagens de última geração e também a recursos já em uso pela empresa, seguido da criação de modelos de ensemble e finalmente treino e otimização de um modelo híbrido baseado em técnicas utilizadas na literatura e respetiva análise de resultados.Processes in organizations over the past few years have been increasingly automated in order to make them more efficient and practical, however, one area in which manual work is still common is document analysis. In this area, due to the ubiquity brought by electronic means, the submission of documents has been made, primarily, in digital format. Human intervention is still frequent in the analysis of these documents for tasks such as validation, information extraction and classification. This manual analysis has high costs in terms of time, performance, and possibility of human error which could have serious consequences in critical environments.Critical Software (CSW) has currently under development a solution that addresses this problem, using technologies in the area of Computer Vision (CV), Machine Learning (ML) and Natural Language Processing (NLP). The solution consists of an Intelligent Document Validation (IDV) system that validates the authenticity of the submitted documents and also extracts useful information from them in order to make the process more efficient and less susceptible to errors. At this internship the objective is to develop a hybrid IDV solution, which use textual and visual characteristics for document classification, and that can improve performance in relation to current models and, simultaneously, ensure robustness in the training of the IDV for new types of documents. This challenge is the main focus of the internship at CSW company lasting one academic year. In summary, the stages of development are: individual training and optimization of textual and image-based models using know state of the art approaches and also already in-use company resources, followed by the creation of ensemble models and finally hybrid model training and optimization based on state-of-the-art-work ending on results analysis.2021-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/96064http://hdl.handle.net/10316/96064TID:202778150engPais, Eduardo de Souzainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T04:16:56Zoai:estudogeral.uc.pt:10316/96064Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:14:25.245965Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
title Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
spellingShingle Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Pais, Eduardo de Souza
Aprendizagem Computacional
Aprendizagem Profunda
Visão Computacional
Processamento de Linguagem Natural
Reconhecimento Ótico de Caracteres
Machine Learning
Deep Learning
Computer Vision
Natural Language Processing
Optical Character Recognition
title_short Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
title_full Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
title_fullStr Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
title_full_unstemmed Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
title_sort Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
author Pais, Eduardo de Souza
author_facet Pais, Eduardo de Souza
author_role author
dc.contributor.author.fl_str_mv Pais, Eduardo de Souza
dc.subject.por.fl_str_mv Aprendizagem Computacional
Aprendizagem Profunda
Visão Computacional
Processamento de Linguagem Natural
Reconhecimento Ótico de Caracteres
Machine Learning
Deep Learning
Computer Vision
Natural Language Processing
Optical Character Recognition
topic Aprendizagem Computacional
Aprendizagem Profunda
Visão Computacional
Processamento de Linguagem Natural
Reconhecimento Ótico de Caracteres
Machine Learning
Deep Learning
Computer Vision
Natural Language Processing
Optical Character Recognition
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2021
dc.date.none.fl_str_mv 2021-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/96064
http://hdl.handle.net/10316/96064
TID:202778150
url http://hdl.handle.net/10316/96064
identifier_str_mv TID:202778150
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134041436323840