Graph-based methods for biomedical concept disambiguation

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Renato Pinho
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/18565
Resumo: Desambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection.
id RCAP_f2172b874543e1fee0392aa25fffc3f0
oai_identifier_str oai:ria.ua.pt:10773/18565
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Graph-based methods for biomedical concept disambiguationEngenharia de computadores e telemáticaBioinfomáticaBiomedicina -- ConceitosPesquisa de informaçãoDesambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection.Word Sense Disambiguation (WSD) is the task of assigning a unique meaning to an ambiguous word or term, given the specific context it is inserted in. The biomedical field contains a large number of ambiguous terms, and not being able to correctly identify the correct sense associated to a term has a negative impact on the accuracy of biomedical applications such as automatic annota-tion and indexing, which are becoming of utmost importance in the biomedical and clinical world given the fast growing amount of digital information available to researchers. This thesis focuses on disambiguation of biomedical terms and presents a solu-tion that can assign unique identifiers to target words based on Unified Medical Language System (UMLS). The method proposed is a knowledge-based ap-proach where no training data is required, thus being a more general solution that can be widely applied to solve ambiguities in the biomedical domain. This method relies on graphs obtained from the UMLS, taking into consideration the concepts from the context of the ambiguous word, and uses a PageRank algo-rithm to score such graphs. Furthermore a web-service was developed and made available for an easy integration in third-party applications, in order to provide such applications with a powerful and easy to use module. The system was tested and evaluated using a WSD test collection provided by the U.S. National Library of Medicine, specifically the MSH WSD Test Collec-tion, a dataset containing over 37 thousand occurrences of 203 ambiguous terms. The best performing results of the proposed system achieve an accuracy of 63.3% for a subset of the MSH WSD Test Collection.Universidade de Aveiro2017-10-18T12:09:11Z2015-01-01T00:00:00Z2015info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/18565TID:201590549engRodrigues, Renato Pinhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:35:58Zoai:ria.ua.pt:10773/18565Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:53:32.654393Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Graph-based methods for biomedical concept disambiguation
title Graph-based methods for biomedical concept disambiguation
spellingShingle Graph-based methods for biomedical concept disambiguation
Rodrigues, Renato Pinho
Engenharia de computadores e telemática
Bioinfomática
Biomedicina -- Conceitos
Pesquisa de informação
title_short Graph-based methods for biomedical concept disambiguation
title_full Graph-based methods for biomedical concept disambiguation
title_fullStr Graph-based methods for biomedical concept disambiguation
title_full_unstemmed Graph-based methods for biomedical concept disambiguation
title_sort Graph-based methods for biomedical concept disambiguation
author Rodrigues, Renato Pinho
author_facet Rodrigues, Renato Pinho
author_role author
dc.contributor.author.fl_str_mv Rodrigues, Renato Pinho
dc.subject.por.fl_str_mv Engenharia de computadores e telemática
Bioinfomática
Biomedicina -- Conceitos
Pesquisa de informação
topic Engenharia de computadores e telemática
Bioinfomática
Biomedicina -- Conceitos
Pesquisa de informação
description Desambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection.
publishDate 2015
dc.date.none.fl_str_mv 2015-01-01T00:00:00Z
2015
2017-10-18T12:09:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/18565
TID:201590549
url http://hdl.handle.net/10773/18565
identifier_str_mv TID:201590549
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de Aveiro
publisher.none.fl_str_mv Universidade de Aveiro
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137587084918784