Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data

Detalhes bibliográficos
Autor(a) principal: Sousa, Rita Isabel Torres de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/39550
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019
id RCAP_1e8c05ae81c51e0f8e9a3062c4322058
oai_identifier_str oai:repositorio.ul.pt:10451/39550
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical dataSemelhança semânticaProgramação genéticaOntologia.Grafo de conhecimentoPrevisão da interacção entre proteínasTeses de mestrado - 2019Departamento de Biologia AnimalTese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019Nos últimos anos, as ontologias biomédicas tornaram-se fundamentais para descrever o conhecimento biológico na forma de grafos de conhecimento. Consequentemente, foram propostas várias abordagens de mineração de dados que tiram partido destes grafos de conhecimento. Estas abordagens baseiam-se em representações vetoriais que podem não capturar toda a informação semântica subjacente aos grafos. Uma abordagem alternativa consiste em utilizar a semelhança semântica como representação semântica. No entanto, como as ontologias podem modelar várias perspetivas, a semelhança semântica pode ser calculada tendo em consideração diferentes aspetos. Deste modo, diferentes tarefas de aprendizagem automática podem exigir diferentes perspetivas do grafo de conhecimento. Selecionar os aspetos semânticos mais relevantes, ou a melhor combinação destes para suportar uma determinada tarefa de aprendizagem não é trivial e, normalmente, exige conhecimento especializado. Nesta dissertação, apresentamos uma nova abordagem usando a Programação Genética sobre um conjunto de semelhanças semânticas, cada uma calculada com base num aspeto semântico dos dados, para obter a melhor combinação para uma dada tarefa de aprendizagem supervisionada. A metodologia inclui três etapas sequenciais: calcular a semelhança semântica para cada aspeto semântico; aprender a melhor combinação desses aspetos usando a Programação Genética; integrar a melhor combinação com o algoritmo de classificação. A abordagem foi avaliada em nove conjuntos de dados para prever a interação entre proteínas. Nesta aplicação, a Gene Ontology foi utilizada como grafo de conhecimento para suportar o cálculo da semelhança semântica. Como referência, utilizámos uma variação da abordagem proposta com estratégias manuais frequentemente utilizadas para combinar os aspetos semânticos. Os resultados demonstraram que as combinações obtidas com a Programação Genética superaram as combinações escolhidas manualmente que emulam o conhecimento especializado. A nossa abordagem foi também capaz de aprender modelos agnósticos em relação à espécie usando diferentes combinações de espécies para treino e teste, ultrapassando assim as limitações de prever interações entre proteínas para espécies com poucas interações conhecidas. Esta nova metodologia supera as limitações impostas pela necessidade de selecionar manualmente os aspetos semânticos que devem ser considerados para uma dada tarefa de aprendizagem. A aplicação da metodologia à previsão da interação entre proteínas foi bem-sucedida, perspetivando outras aplicações.In recent years, biomedical ontologies have become important for describing existing biological knowledge in the form of knowledge graphs. Data mining approaches that work with knowledge graphs have been proposed, but they are based on vector representations that do not capture the full underlying semantics. An alternative is to use machine learning approaches that explore semantic similarity. However, since ontologies can model multiple perspectives, semantic similarity computations for a given learning task need to be fine-tuned to account for this. Obtaining the best combination of semantic similarity aspects for each learning task is not trivial and typically depends on expert knowledge. In this dissertation, we developed a novel approach that applies Genetic Programming over a set of semantic similarity features, each based on a semantic aspect of the data, to obtain the best combination for a given supervised learning task. The methodology includes three sequential steps: compute the semantic similarity for each semantic aspect; learn the best combination of those aspects using Genetic Programming; integrate the best combination with a classification algorithm. The approach was evaluated on several benchmark datasets of protein-protein interaction prediction. The quality of the classifications is evaluated using the weighted average F-measure for each dataset. As a baseline, we employed a variation of the proposed methodology that instead of using evolved combinations, uses static combinations. For protein-protein interaction prediction, Gene Ontology was used as the knowledge graph to support semantic similarity, and it outperformed manually selected combinations of semantic aspects emulating expert knowledge. Our approach was also able to learn species-agnostic models with different combinations of species for training and testing, effectively addressing the limitations of predicting proteinprotein interactions for species with fewer known interactions. This dissertation proposes a novel methodology to overcome one of the limitations in knowledge graph-based semantic similarity applications: the need to expertly select which aspects should be taken into account for a given application. The methodology is particularly important for biomedical applications where data is often complex and multi-domain. Applying this methodology to protein-protein interaction prediction proved successful, paving the way to broader applications.Pesquita, Cátia, 1980-Silva, Sara Guilherme Oliveira da, 1972-Repositório da Universidade de LisboaSousa, Rita Isabel Torres de2019-09-18T09:46:53Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39550TID:202288412enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:22Zoai:repositorio.ul.pt:10451/39550Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:24.419042Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
title Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
spellingShingle Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
Sousa, Rita Isabel Torres de
Semelhança semântica
Programação genética
Ontologia.
Grafo de conhecimento
Previsão da interacção entre proteínas
Teses de mestrado - 2019
Departamento de Biologia Animal
title_short Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
title_full Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
title_fullStr Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
title_full_unstemmed Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
title_sort Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data
author Sousa, Rita Isabel Torres de
author_facet Sousa, Rita Isabel Torres de
author_role author
dc.contributor.none.fl_str_mv Pesquita, Cátia, 1980-
Silva, Sara Guilherme Oliveira da, 1972-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Sousa, Rita Isabel Torres de
dc.subject.por.fl_str_mv Semelhança semântica
Programação genética
Ontologia.
Grafo de conhecimento
Previsão da interacção entre proteínas
Teses de mestrado - 2019
Departamento de Biologia Animal
topic Semelhança semântica
Programação genética
Ontologia.
Grafo de conhecimento
Previsão da interacção entre proteínas
Teses de mestrado - 2019
Departamento de Biologia Animal
description Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019
publishDate 2019
dc.date.none.fl_str_mv 2019-09-18T09:46:53Z
2019
2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/39550
TID:202288412
url http://hdl.handle.net/10451/39550
identifier_str_mv TID:202288412
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134472377991168