Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/39624 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019 |
id |
RCAP_c92bc24e31126de74113ec1b005d1666 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/39624 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking taskProspecção de TextoMapeamento de EntidadesSemelhança SemânticaPageRank PersonalizadoOntologias BiomédicasTeses de mestrado - 2019Domínio/Área Científica::Ciências Naturais::Ciências BiológicasTese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019A literatura científica está maioritariamente disponível na forma de artigos publicados, que são essenciais para a partilha de conhecimento científico. Contudo, o ritmo de publicação de novos artigos tem aumentado constantemente, excedendo a capacidade humana de gerir e aceder a esta grande quantidade de texto não estruturado: os investigadores despendem mais esforço e tempo a recuperar informação científica e o trabalho dos biocuradores torna-se mais complicado, pois a maior parte do texto não é estruturada, o que complica a aplicação de ferramentas automáticas. Os métodos de Prospeção de Texto podem ajudar a gerir a situação, mais concretamente, através da extracção automática de informação a partir do texto presente na literatura científica. A tarefa de Mapeamento de Entidades, responsável por fazer corresponder entidades identificadas no texto a um conceito de uma Base do Conhecimento, é um passo essencial de muitos sistemas de Prospeção de Texto. Mas, comparando com outros domínios, como por exemplo o texto proveniente de redes sociais, a disponibilidade de ferramentas capazes de efectuar Mapeamento de Entidades é ainda escassa. Esta dissertação propõe um módulo capaz de efectuar Mapeamento de Entidades em documentos anotados com entidades pertences a duas ontologias biomédicas: Gene Ontology (GO) e Uber-Anatomy Ontology (Uberon). O sistema utiliza o algoritmo PageRank personalizado e medidas de semelhança semântica para escolher o melhor candidato para cada entidade do texto. O desempenho do sistema foi avaliado no corpus CRAFT, alcançando uma eficácia de 0.8244 em entidades pertencentes à subontologia GO Biological Process, de 0.7258 em entidades da subontologia GO Cellular Component e de 0.7918 em entidades da ontologia Uberon. Adicionalmente, o sistema foi avaliado no corpus MSNBC que contém entidades da ontologia DBpedia e alcançou uma eficácia de 0.8814, o que é comparável com resultados alcançados por sistemas estado da arte. O código do módulo pode ser consultado na página GitHub do grupo LaSIGE Biomedical Text Mining Team: https://github.com/lasigeBioTM/PPRSSM. Os resultados do presente trabalho demonstram que é possível aplicar com sucesso medidas de semelhança semântica a sistemas baseados no algoritmo PageRank personalizado e explorar ontologias biomédicas para melhorar a tarefa de Mapeamento de Entidades.Scientific literature is mainly available in the form of published articles, which are essential to the sharing of scientific knowledge between researchers. However, the rate of publication of new articles have been steadily rising, exceeding the human capacity to effectively manage and assess this large amount of unstructured text: researchers spend more time and effort to retrieve scientific information and the task of biocurators also gets more difficult, due to the unstructured nature of the text that hinders the application of automatic tools. Text Mining methods can help to manage this situation, more concretely by automatically extracting information from the text in scientific literature. Entity Linking, the task of automatically mapping entities recognized in text to a knowledge base concept, is an essential step in Text Mining workflows. But, comparing to other domains like social media text, the availability of EL tools capable of performing well in biomedical text is still scarce. This dissertation proposes a module that performs Entity Linking in documents annotated with entities from two biomedical ontologies: Gene Ontology (GO) and Uber-Anatomy Ontology (Uberon). The system applies the Personalized PageRank (PPR) algorithm and semantic similarity measures to choose the best candidate for each entity in text. The performance of the system was evaluated on CRAFT corpus (gold standard), achieving an accuracy of 0.8244 in GO Biological Process entities, 0.7258 in GO Cellular Component entities and 0.7918 in Uberon entities. Additionally, the system was evaluated on the MSNBC gold standard containing DBpedia entities and achieved an accuracy of 0.8814, which compares well with other state-of-the-art systems. The code behind the module can be accessed in the LaSIGE Biomedical Text Mining Team GitHub page: https://github.com/lasigeBioTM/PPRSSM. The results of the present work prove that it is possible to successfully apply semantic similarity measures in PPR-based systems and explore biomedical ontologies for the improvement of the EL task.Couto, Francisco José MoreiraRepositório da Universidade de LisboaRuas, Pedro Simões2019-09-25T18:02:23Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39624TID:202291669enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:30Zoai:repositorio.ul.pt:10451/39624Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:29.027599Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
title |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
spellingShingle |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task Ruas, Pedro Simões Prospecção de Texto Mapeamento de Entidades Semelhança Semântica PageRank Personalizado Ontologias Biomédicas Teses de mestrado - 2019 Domínio/Área Científica::Ciências Naturais::Ciências Biológicas |
title_short |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
title_full |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
title_fullStr |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
title_full_unstemmed |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
title_sort |
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task |
author |
Ruas, Pedro Simões |
author_facet |
Ruas, Pedro Simões |
author_role |
author |
dc.contributor.none.fl_str_mv |
Couto, Francisco José Moreira Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Ruas, Pedro Simões |
dc.subject.por.fl_str_mv |
Prospecção de Texto Mapeamento de Entidades Semelhança Semântica PageRank Personalizado Ontologias Biomédicas Teses de mestrado - 2019 Domínio/Área Científica::Ciências Naturais::Ciências Biológicas |
topic |
Prospecção de Texto Mapeamento de Entidades Semelhança Semântica PageRank Personalizado Ontologias Biomédicas Teses de mestrado - 2019 Domínio/Área Científica::Ciências Naturais::Ciências Biológicas |
description |
Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019 |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-09-25T18:02:23Z 2019 2019 2019-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/39624 TID:202291669 |
url |
http://hdl.handle.net/10451/39624 |
identifier_str_mv |
TID:202291669 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134473376235520 |