Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/39550 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019 |
id |
RCAP_1e8c05ae81c51e0f8e9a3062c4322058 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/39550 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical dataSemelhança semânticaProgramação genéticaOntologia.Grafo de conhecimentoPrevisão da interacção entre proteínasTeses de mestrado - 2019Departamento de Biologia AnimalTese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019Nos últimos anos, as ontologias biomédicas tornaram-se fundamentais para descrever o conhecimento biológico na forma de grafos de conhecimento. Consequentemente, foram propostas várias abordagens de mineração de dados que tiram partido destes grafos de conhecimento. Estas abordagens baseiam-se em representações vetoriais que podem não capturar toda a informação semântica subjacente aos grafos. Uma abordagem alternativa consiste em utilizar a semelhança semântica como representação semântica. No entanto, como as ontologias podem modelar várias perspetivas, a semelhança semântica pode ser calculada tendo em consideração diferentes aspetos. Deste modo, diferentes tarefas de aprendizagem automática podem exigir diferentes perspetivas do grafo de conhecimento. Selecionar os aspetos semânticos mais relevantes, ou a melhor combinação destes para suportar uma determinada tarefa de aprendizagem não é trivial e, normalmente, exige conhecimento especializado. Nesta dissertação, apresentamos uma nova abordagem usando a Programação Genética sobre um conjunto de semelhanças semânticas, cada uma calculada com base num aspeto semântico dos dados, para obter a melhor combinação para uma dada tarefa de aprendizagem supervisionada. A metodologia inclui três etapas sequenciais: calcular a semelhança semântica para cada aspeto semântico; aprender a melhor combinação desses aspetos usando a Programação Genética; integrar a melhor combinação com o algoritmo de classificação. A abordagem foi avaliada em nove conjuntos de dados para prever a interação entre proteínas. Nesta aplicação, a Gene Ontology foi utilizada como grafo de conhecimento para suportar o cálculo da semelhança semântica. Como referência, utilizámos uma variação da abordagem proposta com estratégias manuais frequentemente utilizadas para combinar os aspetos semânticos. Os resultados demonstraram que as combinações obtidas com a Programação Genética superaram as combinações escolhidas manualmente que emulam o conhecimento especializado. A nossa abordagem foi também capaz de aprender modelos agnósticos em relação à espécie usando diferentes combinações de espécies para treino e teste, ultrapassando assim as limitações de prever interações entre proteínas para espécies com poucas interações conhecidas. Esta nova metodologia supera as limitações impostas pela necessidade de selecionar manualmente os aspetos semânticos que devem ser considerados para uma dada tarefa de aprendizagem. A aplicação da metodologia à previsão da interação entre proteínas foi bem-sucedida, perspetivando outras aplicações.In recent years, biomedical ontologies have become important for describing existing biological knowledge in the form of knowledge graphs. Data mining approaches that work with knowledge graphs have been proposed, but they are based on vector representations that do not capture the full underlying semantics. An alternative is to use machine learning approaches that explore semantic similarity. However, since ontologies can model multiple perspectives, semantic similarity computations for a given learning task need to be fine-tuned to account for this. Obtaining the best combination of semantic similarity aspects for each learning task is not trivial and typically depends on expert knowledge. In this dissertation, we developed a novel approach that applies Genetic Programming over a set of semantic similarity features, each based on a semantic aspect of the data, to obtain the best combination for a given supervised learning task. The methodology includes three sequential steps: compute the semantic similarity for each semantic aspect; learn the best combination of those aspects using Genetic Programming; integrate the best combination with a classification algorithm. The approach was evaluated on several benchmark datasets of protein-protein interaction prediction. The quality of the classifications is evaluated using the weighted average F-measure for each dataset. As a baseline, we employed a variation of the proposed methodology that instead of using evolved combinations, uses static combinations. For protein-protein interaction prediction, Gene Ontology was used as the knowledge graph to support semantic similarity, and it outperformed manually selected combinations of semantic aspects emulating expert knowledge. Our approach was also able to learn species-agnostic models with different combinations of species for training and testing, effectively addressing the limitations of predicting proteinprotein interactions for species with fewer known interactions. This dissertation proposes a novel methodology to overcome one of the limitations in knowledge graph-based semantic similarity applications: the need to expertly select which aspects should be taken into account for a given application. The methodology is particularly important for biomedical applications where data is often complex and multi-domain. Applying this methodology to protein-protein interaction prediction proved successful, paving the way to broader applications.Pesquita, Cátia, 1980-Silva, Sara Guilherme Oliveira da, 1972-Repositório da Universidade de LisboaSousa, Rita Isabel Torres de2019-09-18T09:46:53Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39550TID:202288412enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:22Zoai:repositorio.ul.pt:10451/39550Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:24.419042Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
title |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
spellingShingle |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data Sousa, Rita Isabel Torres de Semelhança semântica Programação genética Ontologia. Grafo de conhecimento Previsão da interacção entre proteínas Teses de mestrado - 2019 Departamento de Biologia Animal |
title_short |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
title_full |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
title_fullStr |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
title_full_unstemmed |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
title_sort |
Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data |
author |
Sousa, Rita Isabel Torres de |
author_facet |
Sousa, Rita Isabel Torres de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pesquita, Cátia, 1980- Silva, Sara Guilherme Oliveira da, 1972- Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Sousa, Rita Isabel Torres de |
dc.subject.por.fl_str_mv |
Semelhança semântica Programação genética Ontologia. Grafo de conhecimento Previsão da interacção entre proteínas Teses de mestrado - 2019 Departamento de Biologia Animal |
topic |
Semelhança semântica Programação genética Ontologia. Grafo de conhecimento Previsão da interacção entre proteínas Teses de mestrado - 2019 Departamento de Biologia Animal |
description |
Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019 |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-09-18T09:46:53Z 2019 2019 2019-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/39550 TID:202288412 |
url |
http://hdl.handle.net/10451/39550 |
identifier_str_mv |
TID:202288412 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134472377991168 |