Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions

Detalhes bibliográficos
Autor(a) principal: Silva, Luís Pedro Baptista
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/92577
Resumo: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
id RCAP_5a79be8519ae2e4cda30fb027504718b
oai_identifier_str oai:estudogeral.uc.pt:10316/92577
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactionsExplorando arquiteturas de aprendizado profundo e a confiabilidade de vários conjuntos de dados para prever interações proteína-proteínaInteração Proteína-ProteínaConjunto de dadosAprendizagem profundaRede Neuronal ConvolucionalRede Neuronal Completamente ConvolucionalProtein-Protein InteractionDatasetsDeep LearningConvolutional Neural NetworksFully Convolutional Neural NetworksTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaAs proteínas são indispensáveis para os seres vivos e são a base de quase todos os processos celulares. No entanto, estas macromoléculas raramente actuam sozinhas, formando as interações proteína-proteína. Dada a sua importância biológica não é de surpreender que a sua desregulamentação seja uma das principais causas de vários estados de doença.A súbita onda de interesse nesta área de estudo motivou o desenvolvimento de métodos in silico inovadores. Apesar dos avanços óbvios nos últimos anos, a eficácia destes métodos computacionais permanece questionável. Ainda não existem evidências suficientes que apoiem o uso apenas de técnicas in silico para prever interações proteína-proteína ainda não determinadas experimentalmente. Está provado que uma das principais razões que leva a esta situação é a inexistência de um conjunto de dados de interações negativas padrão. Contrariamente à grande abundância de interações positivas disponíveis publicamente, os exemplos negativos são frequentemente gerados artificialmente, culminando em amostras tendenciosas.Nesta tese de mestrado, é apresentado um novo conjunto de dados imparciais, que não restringe em demasia a distribuição das interações negativas. Além do novo conjunto de dados, são também propostos modelos distintos de aprendizagem profunda como uma ferramenta para prever se duas proteínas individuais são capazes de interagir uma com a outra, usando exclusivamente as sequências completas de aminoácidos. Os resultados obtidos indicam firmemente que os modelos propostos são realmente uma ferramenta valiosa para prever interações proteína-proteína, principalmente quando comparados com as abordagens existentes, além de destacarem ainda que existe espaço para melhorias quando implementados em conjuntos de dados imparciais.Proteins are indispensable to the living organisms and are the backbone of almost all the cellular processes. However, these macromolecules rarely act alone, forming the protein-protein interactions. Given their biological significance it should come as no surprise that their deregulation is one of the main causes to several disease states. The sudden surge of interest in this field of study motivated the development of innovative in silico methods. Despite the obvious advances in recent years, the effectiveness of these computational methods remains questionable. There is still not enough evidence to support the use of just in silico techniques to predict protein-protein interactions not yet experimentally determined. It is proved that one of the primary reasons leading to this situation is the non-existence of a "gold-standard" negative interactions dataset. Contrary to the high abundance of publicly available positive interactions, the negative examples are often artificially generated, culminating in biased samples. In this master thesis a new unbiased dataset is presented, that does not overly constraint the negative interactions distribution. Beyond the novel dataset, also distinct deep learning models are proposed as a tool to predict whether two individual proteins are capable of interacting with each other, using exclusively the complete raw amino acid sequences. The obtained results firmly indicate that the proposed models are actually a valuable tool to predict protein-protein interactions, principally when compared with the existing approaches, while also highlighting that there is still some room for improvement when implemented in unbiased datasets.Outro - Portuguese Research Agency FCT, through D4 - Deep Drug Discovery and Deployment (CENTRO-01-0145-FEDER-029266).2020-07-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92577http://hdl.handle.net/10316/92577TID:202520358engSilva, Luís Pedro Baptistainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T04:28:06Zoai:estudogeral.uc.pt:10316/92577Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:38.652034Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
Explorando arquiteturas de aprendizado profundo e a confiabilidade de vários conjuntos de dados para prever interações proteína-proteína
title Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
spellingShingle Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
Silva, Luís Pedro Baptista
Interação Proteína-Proteína
Conjunto de dados
Aprendizagem profunda
Rede Neuronal Convolucional
Rede Neuronal Completamente Convolucional
Protein-Protein Interaction
Datasets
Deep Learning
Convolutional Neural Networks
Fully Convolutional Neural Networks
title_short Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
title_full Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
title_fullStr Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
title_full_unstemmed Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
title_sort Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
author Silva, Luís Pedro Baptista
author_facet Silva, Luís Pedro Baptista
author_role author
dc.contributor.author.fl_str_mv Silva, Luís Pedro Baptista
dc.subject.por.fl_str_mv Interação Proteína-Proteína
Conjunto de dados
Aprendizagem profunda
Rede Neuronal Convolucional
Rede Neuronal Completamente Convolucional
Protein-Protein Interaction
Datasets
Deep Learning
Convolutional Neural Networks
Fully Convolutional Neural Networks
topic Interação Proteína-Proteína
Conjunto de dados
Aprendizagem profunda
Rede Neuronal Convolucional
Rede Neuronal Completamente Convolucional
Protein-Protein Interaction
Datasets
Deep Learning
Convolutional Neural Networks
Fully Convolutional Neural Networks
description Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
publishDate 2020
dc.date.none.fl_str_mv 2020-07-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/92577
http://hdl.handle.net/10316/92577
TID:202520358
url http://hdl.handle.net/10316/92577
identifier_str_mv TID:202520358
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134013454024704