Identification and classification of transporter proteins using deep learning models

Detalhes bibliográficos
Autor(a) principal: Silva, Andrea Ferreira Meireles
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/79910
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_d7462e2df226352e4d0f811aa7c3ca0e
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/79910
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Identification and classification of transporter proteins using deep learning modelsDeep LearningMachine LearningModelosProteínas transportadorasModelsTransport proteinsEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsNos últimos anos a identificação e sequenciação de proteínas transportadoras tem crescido, uma vez que estas são de extrema importância no corpo humano e em todos os seres vivos, sendo responsáveis pela absorção e movimentação de moléculas essenciais às células e ainda pela excreção de produtos do metabolismo celular. A identificação de genes que codificam proteínas transportadoras é muito importante em várias áreas, como farmacocinética e reconstrução de modelos metabólicos em escala genómica que permitem perceber a relação entre genótipos-fenótipos. De forma a tentar diferenciar proteínas transportadoras de não transportadoras duas abordagens foram realizadas, treinando e testando modelos de machine learning e de deep learning. Os dados utilizados provêm da base de dados TCDB, que contém proteínas transportadoras, e da base de dados Swiss-Prot, onde as proteínas foram filtradas para serem obtidas proteínas não transportadoras, obtendo no final um conjunto de dados equilibrado. De seguida, através desses dados foram obtidas características das proteínas através das suas sequências, sendo assim utilizado para treinar diferentes modelos de machine learning e deep neural networks. Nesta abordagem os modelos apresentaram um bom desempenho global, atingindo 89% de acerto na identificação de proteínas transportadoras. Todos os modelos treinados apresentam um elevado número de falsos negativos em comparação com o número de falsos positivos, indicando que a maior falha nos modelos prende-se na identificação de proteínas transportadoras como não transportadoras. O principal objetivo deste projeto prendia-se com a utilização de métodos de deep learning para identificar proteínas transportadoras, apenas utilizando as suas sequências de aminoácidos como entrada, comparando assim as duas abordagens realizadas. Desta forma, utilizando apenas as sequencias das proteínas, diferentes redes neuronais foram treinadas e testadas, desde redes neuronais recorrentes a convolucionais, obtendo um desempenho global muito semelhante ao da abordagem anterior, atingindo também um valor de 89% de acerto na identificação de proteínas transportadoras. Assim, foram alcançados modelos de desempenho preditivo semelhante sem a necessidade de calcular características.In the last years, the identification and sequencing of transport proteins has grown, once they are extremely important in the human body and in all living beings, being responsible for the absorption and movement of molecules essential to cells and also for the excretion of cellular metabolism products. Identification of genes that encode transport proteins is very important in areas,such as pharmacokinetics and genome-scale metabolic models reconstruction, which allow us to understand the relationship between genotypes and phenotypes. In order to try to differentiate transport proteins from non-transport ones, two approaches were taken, training and testing machine learning and deep learning models. The data used came from the TCDB database, which contains transport proteins, and from the Swiss-Prot database, where the proteins were filtered to obtain non-transport proteins, obtaining at the end a balanced dataset. Next, using this dataset, features were created from the protein sequences and used to train different machine learning models and deep neural networks. In this approach the models presented a good overall performance, reaching 89% accuracy in the identification of transport proteins. All trained models have a high number of false negatives compared to the number of false positives, indicating that the major failure in the models is the identification of transport proteins as non-transport proteins. The main objective of this project was to use deep learning methods to identify transport proteins, only using their aminoacid sequences as inputs, thus comparing the two approaches. Thus, using only the protein sequences, different neural networks were trained and tested, from recurrent to convolutional neural networks, obtaining an overall performance very similar to that of the previous approach, reaching once more 89% accuracy in the identification of transport proteins. Thus, we have attained models of similar predictive performance without the need to compute features.Rocha, MiguelDias, OscarUniversidade do MinhoSilva, Andrea Ferreira Meireles2019-11-282019-11-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79910eng203019440info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:23:17Zoai:repositorium.sdum.uminho.pt:1822/79910Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:16:58.062158Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Identification and classification of transporter proteins using deep learning models
title Identification and classification of transporter proteins using deep learning models
spellingShingle Identification and classification of transporter proteins using deep learning models
Silva, Andrea Ferreira Meireles
Deep Learning
Machine Learning
Modelos
Proteínas transportadoras
Models
Transport proteins
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Identification and classification of transporter proteins using deep learning models
title_full Identification and classification of transporter proteins using deep learning models
title_fullStr Identification and classification of transporter proteins using deep learning models
title_full_unstemmed Identification and classification of transporter proteins using deep learning models
title_sort Identification and classification of transporter proteins using deep learning models
author Silva, Andrea Ferreira Meireles
author_facet Silva, Andrea Ferreira Meireles
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Dias, Oscar
Universidade do Minho
dc.contributor.author.fl_str_mv Silva, Andrea Ferreira Meireles
dc.subject.por.fl_str_mv Deep Learning
Machine Learning
Modelos
Proteínas transportadoras
Models
Transport proteins
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep Learning
Machine Learning
Modelos
Proteínas transportadoras
Models
Transport proteins
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformatics
publishDate 2019
dc.date.none.fl_str_mv 2019-11-28
2019-11-28T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/79910
url https://hdl.handle.net/1822/79910
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203019440
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132620586483712