Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task

Detalhes bibliográficos
Autor(a) principal: Ruas, Pedro Simões
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/39624
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019
id RCAP_c92bc24e31126de74113ec1b005d1666
oai_identifier_str oai:repositorio.ul.pt:10451/39624
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking taskProspecção de TextoMapeamento de EntidadesSemelhança SemânticaPageRank PersonalizadoOntologias BiomédicasTeses de mestrado - 2019Domínio/Área Científica::Ciências Naturais::Ciências BiológicasTese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019A literatura científica está maioritariamente disponível na forma de artigos publicados, que são essenciais para a partilha de conhecimento científico. Contudo, o ritmo de publicação de novos artigos tem aumentado constantemente, excedendo a capacidade humana de gerir e aceder a esta grande quantidade de texto não estruturado: os investigadores despendem mais esforço e tempo a recuperar informação científica e o trabalho dos biocuradores torna-se mais complicado, pois a maior parte do texto não é estruturada, o que complica a aplicação de ferramentas automáticas. Os métodos de Prospeção de Texto podem ajudar a gerir a situação, mais concretamente, através da extracção automática de informação a partir do texto presente na literatura científica. A tarefa de Mapeamento de Entidades, responsável por fazer corresponder entidades identificadas no texto a um conceito de uma Base do Conhecimento, é um passo essencial de muitos sistemas de Prospeção de Texto. Mas, comparando com outros domínios, como por exemplo o texto proveniente de redes sociais, a disponibilidade de ferramentas capazes de efectuar Mapeamento de Entidades é ainda escassa. Esta dissertação propõe um módulo capaz de efectuar Mapeamento de Entidades em documentos anotados com entidades pertences a duas ontologias biomédicas: Gene Ontology (GO) e Uber-Anatomy Ontology (Uberon). O sistema utiliza o algoritmo PageRank personalizado e medidas de semelhança semântica para escolher o melhor candidato para cada entidade do texto. O desempenho do sistema foi avaliado no corpus CRAFT, alcançando uma eficácia de 0.8244 em entidades pertencentes à subontologia GO Biological Process, de 0.7258 em entidades da subontologia GO Cellular Component e de 0.7918 em entidades da ontologia Uberon. Adicionalmente, o sistema foi avaliado no corpus MSNBC que contém entidades da ontologia DBpedia e alcançou uma eficácia de 0.8814, o que é comparável com resultados alcançados por sistemas estado da arte. O código do módulo pode ser consultado na página GitHub do grupo LaSIGE Biomedical Text Mining Team: https://github.com/lasigeBioTM/PPRSSM. Os resultados do presente trabalho demonstram que é possível aplicar com sucesso medidas de semelhança semântica a sistemas baseados no algoritmo PageRank personalizado e explorar ontologias biomédicas para melhorar a tarefa de Mapeamento de Entidades.Scientific literature is mainly available in the form of published articles, which are essential to the sharing of scientific knowledge between researchers. However, the rate of publication of new articles have been steadily rising, exceeding the human capacity to effectively manage and assess this large amount of unstructured text: researchers spend more time and effort to retrieve scientific information and the task of biocurators also gets more difficult, due to the unstructured nature of the text that hinders the application of automatic tools. Text Mining methods can help to manage this situation, more concretely by automatically extracting information from the text in scientific literature. Entity Linking, the task of automatically mapping entities recognized in text to a knowledge base concept, is an essential step in Text Mining workflows. But, comparing to other domains like social media text, the availability of EL tools capable of performing well in biomedical text is still scarce. This dissertation proposes a module that performs Entity Linking in documents annotated with entities from two biomedical ontologies: Gene Ontology (GO) and Uber-Anatomy Ontology (Uberon). The system applies the Personalized PageRank (PPR) algorithm and semantic similarity measures to choose the best candidate for each entity in text. The performance of the system was evaluated on CRAFT corpus (gold standard), achieving an accuracy of 0.8244 in GO Biological Process entities, 0.7258 in GO Cellular Component entities and 0.7918 in Uberon entities. Additionally, the system was evaluated on the MSNBC gold standard containing DBpedia entities and achieved an accuracy of 0.8814, which compares well with other state-of-the-art systems. The code behind the module can be accessed in the LaSIGE Biomedical Text Mining Team GitHub page: https://github.com/lasigeBioTM/PPRSSM. The results of the present work prove that it is possible to successfully apply semantic similarity measures in PPR-based systems and explore biomedical ontologies for the improvement of the EL task.Couto, Francisco José MoreiraRepositório da Universidade de LisboaRuas, Pedro Simões2019-09-25T18:02:23Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39624TID:202291669enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:30Zoai:repositorio.ul.pt:10451/39624Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:29.027599Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
title Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
spellingShingle Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
Ruas, Pedro Simões
Prospecção de Texto
Mapeamento de Entidades
Semelhança Semântica
PageRank Personalizado
Ontologias Biomédicas
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
title_short Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
title_full Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
title_fullStr Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
title_full_unstemmed Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
title_sort Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
author Ruas, Pedro Simões
author_facet Ruas, Pedro Simões
author_role author
dc.contributor.none.fl_str_mv Couto, Francisco José Moreira
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Ruas, Pedro Simões
dc.subject.por.fl_str_mv Prospecção de Texto
Mapeamento de Entidades
Semelhança Semântica
PageRank Personalizado
Ontologias Biomédicas
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
topic Prospecção de Texto
Mapeamento de Entidades
Semelhança Semântica
PageRank Personalizado
Ontologias Biomédicas
Teses de mestrado - 2019
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
description Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019
publishDate 2019
dc.date.none.fl_str_mv 2019-09-25T18:02:23Z
2019
2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/39624
TID:202291669
url http://hdl.handle.net/10451/39624
identifier_str_mv TID:202291669
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134473376235520