Graph-based methods for biomedical concept disambiguation
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10773/18565 |
Resumo: | Desambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection. |
id |
RCAP_f2172b874543e1fee0392aa25fffc3f0 |
---|---|
oai_identifier_str |
oai:ria.ua.pt:10773/18565 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Graph-based methods for biomedical concept disambiguationEngenharia de computadores e telemáticaBioinfomáticaBiomedicina -- ConceitosPesquisa de informaçãoDesambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection.Word Sense Disambiguation (WSD) is the task of assigning a unique meaning to an ambiguous word or term, given the specific context it is inserted in. The biomedical field contains a large number of ambiguous terms, and not being able to correctly identify the correct sense associated to a term has a negative impact on the accuracy of biomedical applications such as automatic annota-tion and indexing, which are becoming of utmost importance in the biomedical and clinical world given the fast growing amount of digital information available to researchers. This thesis focuses on disambiguation of biomedical terms and presents a solu-tion that can assign unique identifiers to target words based on Unified Medical Language System (UMLS). The method proposed is a knowledge-based ap-proach where no training data is required, thus being a more general solution that can be widely applied to solve ambiguities in the biomedical domain. This method relies on graphs obtained from the UMLS, taking into consideration the concepts from the context of the ambiguous word, and uses a PageRank algo-rithm to score such graphs. Furthermore a web-service was developed and made available for an easy integration in third-party applications, in order to provide such applications with a powerful and easy to use module. The system was tested and evaluated using a WSD test collection provided by the U.S. National Library of Medicine, specifically the MSH WSD Test Collec-tion, a dataset containing over 37 thousand occurrences of 203 ambiguous terms. The best performing results of the proposed system achieve an accuracy of 63.3% for a subset of the MSH WSD Test Collection.Universidade de Aveiro2017-10-18T12:09:11Z2015-01-01T00:00:00Z2015info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/18565TID:201590549engRodrigues, Renato Pinhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:35:58Zoai:ria.ua.pt:10773/18565Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:53:32.654393Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Graph-based methods for biomedical concept disambiguation |
title |
Graph-based methods for biomedical concept disambiguation |
spellingShingle |
Graph-based methods for biomedical concept disambiguation Rodrigues, Renato Pinho Engenharia de computadores e telemática Bioinfomática Biomedicina -- Conceitos Pesquisa de informação |
title_short |
Graph-based methods for biomedical concept disambiguation |
title_full |
Graph-based methods for biomedical concept disambiguation |
title_fullStr |
Graph-based methods for biomedical concept disambiguation |
title_full_unstemmed |
Graph-based methods for biomedical concept disambiguation |
title_sort |
Graph-based methods for biomedical concept disambiguation |
author |
Rodrigues, Renato Pinho |
author_facet |
Rodrigues, Renato Pinho |
author_role |
author |
dc.contributor.author.fl_str_mv |
Rodrigues, Renato Pinho |
dc.subject.por.fl_str_mv |
Engenharia de computadores e telemática Bioinfomática Biomedicina -- Conceitos Pesquisa de informação |
topic |
Engenharia de computadores e telemática Bioinfomática Biomedicina -- Conceitos Pesquisa de informação |
description |
Desambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-01-01T00:00:00Z 2015 2017-10-18T12:09:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10773/18565 TID:201590549 |
url |
http://hdl.handle.net/10773/18565 |
identifier_str_mv |
TID:201590549 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade de Aveiro |
publisher.none.fl_str_mv |
Universidade de Aveiro |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137587084918784 |