Entity recognition in archival descriptions

Cunha, Luís Filipe da Costa

Entity recognition in archival descriptions

Detalhes bibliográficos
Autor(a) principal:	Cunha, Luís Filipe da Costa
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://hdl.handle.net/1822/79025
Resumo:	Dissertação de mestrado integrado em Informatics Engineering

Metadados do item

id	RCAP_8023bad0d6fbdcc06123b54f241e5fd2
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/79025
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Entity recognition in archival descriptionsNamed entity recognitionArchival finding aidsMachine learningDeep learningBERTData annotationReconhecimento de entidades mencionadasDescrições arquivísticasAnotação de dadosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Informatics EngineeringAt the moment, there is a vast amount of archival data spread across the Portuguese archives, which keeps information from our ancestors’ times to the present day. Most of this information was already transcribed to digital format, and the public can access it through archives’ online repositories. Despite that, some of these documents are structured with many plain text fields without any annotations, making their content analyses difficult. In this thesis, we implemented several Named Entity Recognition solutions to perform a semantic interpretation of the archival finding aids by extracting named entities like Person, Place, Date, Profession, and Organization. These entities translate into crucial information about the context in which they are inserted. They can be used for several purposes with high confidence results, such as creating smart browsing tools by using entity linking and record linking techniques. In this way, the main challenge of this work was the creation of powerful NER models capable of producing high confidence results. In order to achieve high result scores, we annotated several corpora to train our Machine Learning algorithms in the archival domain. We also used different ML architectures such as MaxEnt, CNNs, LSTMs, and BERT models. During the model’s validation, we created different environments to test the effect of the context proximity in the training data. Finally, during the model’s training, we noticed a lack of available Portuguese annotated data, limiting the potential of several NLP tasks. In this way, we developed an intelligent corpus annotator that uses one of our NER models to assist and accelerate the annotation process.De momento, existe uma vasta quantidade de dados arquivísticos espalhados pelos arquivos portugueses, que guardam informações desde os tempos dos nossos antepassados até aos dias de hoje. A maior parte desta informação já foi transcrita para o formato digital e encontra-se disponível ao público através de repositórios online dos arquivos. Apesar disso, alguns destes documentos estão estruturados com muitos campos de texto livre, sem quaisquer anotações, o que pode dificultar a análise do seu conteúdo. Nesta tese, implementamos várias soluções de Reconhecimento de Entidades Mencionadas, a fim de se realizar uma interpretação semântica sobre descrições arquivísticas, extraindo entidades tais como Pessoa, Local, Data, Profissão e Organização. Estes tipos de entidades traduzem-se em informação crucial sobre o contexto em que estão inseridas. Com métricas de confiança suficientemente elevadas, estas entidades podem ser utilizadas para diversos fins, como a criação de ferramentas de navegação inteligente por meio de técnicas de entity linking e record linking. Desta forma, o principal desafio deste trabalho consistiu na criação de poderosos modelos NER que fossem capazes de produzir resultados de elevada confiança. Para alcançar tais resultados, anotamos vários datasets para treinar os nossos próprios algoritmos de Aprendizado de Máquina no contexto arquivístico. Para além disso, usamos diferentes arquiteturas de ML tais como MaxEnt, CNNs, LSTMs e BERT. Durante a validação do modelo, criamos diferentes ambientes de teste de modo a testar o efeito da proximidade de contexto nos dados de treino. Por fim, durante o treino dos modelos verificamos que existe pouca quantidade de dados disponíveis anotados em português, o que pode limitar o potencial de várias tarefas de NLP. Desta forma, desenvolvemos um anotador de datasets inteligente que utiliza um dos nossos modelos de NER para auxiliar e acelerar o processo de anotação.Universidade do MinhoCunha, Luís Filipe da Costa20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79025eng203001702info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:51:47Zoai:repositorium.sdum.uminho.pt:1822/79025Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:50:46.312942Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Entity recognition in archival descriptions
title	Entity recognition in archival descriptions
spellingShingle	Entity recognition in archival descriptions Cunha, Luís Filipe da Costa Named entity recognition Archival finding aids Machine learning Deep learning BERT Data annotation Reconhecimento de entidades mencionadas Descrições arquivísticas Anotação de dados Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Entity recognition in archival descriptions
title_full	Entity recognition in archival descriptions
title_fullStr	Entity recognition in archival descriptions
title_full_unstemmed	Entity recognition in archival descriptions
title_sort	Entity recognition in archival descriptions
author	Cunha, Luís Filipe da Costa
author_facet	Cunha, Luís Filipe da Costa
author_role	author
dc.contributor.none.fl_str_mv	Universidade do Minho
dc.contributor.author.fl_str_mv	Cunha, Luís Filipe da Costa
dc.subject.por.fl_str_mv	Named entity recognition Archival finding aids Machine learning Deep learning BERT Data annotation Reconhecimento de entidades mencionadas Descrições arquivísticas Anotação de dados Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Named entity recognition Archival finding aids Machine learning Deep learning BERT Data annotation Reconhecimento de entidades mencionadas Descrições arquivísticas Anotação de dados Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Dissertação de mestrado integrado em Informatics Engineering
publishDate	2022
dc.date.none.fl_str_mv	2022 2022-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1822/79025
url	https://hdl.handle.net/1822/79025
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	203001702
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133093064343552

Entity recognition in archival descriptions

Registros relacionados