Identification and classification of transporter proteins using deep learning models
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/79910 |
Resumo: | Dissertação de mestrado em Bioinformatics |
id |
RCAP_d7462e2df226352e4d0f811aa7c3ca0e |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/79910 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Identification and classification of transporter proteins using deep learning modelsDeep LearningMachine LearningModelosProteínas transportadorasModelsTransport proteinsEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsNos últimos anos a identificação e sequenciação de proteínas transportadoras tem crescido, uma vez que estas são de extrema importância no corpo humano e em todos os seres vivos, sendo responsáveis pela absorção e movimentação de moléculas essenciais às células e ainda pela excreção de produtos do metabolismo celular. A identificação de genes que codificam proteínas transportadoras é muito importante em várias áreas, como farmacocinética e reconstrução de modelos metabólicos em escala genómica que permitem perceber a relação entre genótipos-fenótipos. De forma a tentar diferenciar proteínas transportadoras de não transportadoras duas abordagens foram realizadas, treinando e testando modelos de machine learning e de deep learning. Os dados utilizados provêm da base de dados TCDB, que contém proteínas transportadoras, e da base de dados Swiss-Prot, onde as proteínas foram filtradas para serem obtidas proteínas não transportadoras, obtendo no final um conjunto de dados equilibrado. De seguida, através desses dados foram obtidas características das proteínas através das suas sequências, sendo assim utilizado para treinar diferentes modelos de machine learning e deep neural networks. Nesta abordagem os modelos apresentaram um bom desempenho global, atingindo 89% de acerto na identificação de proteínas transportadoras. Todos os modelos treinados apresentam um elevado número de falsos negativos em comparação com o número de falsos positivos, indicando que a maior falha nos modelos prende-se na identificação de proteínas transportadoras como não transportadoras. O principal objetivo deste projeto prendia-se com a utilização de métodos de deep learning para identificar proteínas transportadoras, apenas utilizando as suas sequências de aminoácidos como entrada, comparando assim as duas abordagens realizadas. Desta forma, utilizando apenas as sequencias das proteínas, diferentes redes neuronais foram treinadas e testadas, desde redes neuronais recorrentes a convolucionais, obtendo um desempenho global muito semelhante ao da abordagem anterior, atingindo também um valor de 89% de acerto na identificação de proteínas transportadoras. Assim, foram alcançados modelos de desempenho preditivo semelhante sem a necessidade de calcular características.In the last years, the identification and sequencing of transport proteins has grown, once they are extremely important in the human body and in all living beings, being responsible for the absorption and movement of molecules essential to cells and also for the excretion of cellular metabolism products. Identification of genes that encode transport proteins is very important in areas,such as pharmacokinetics and genome-scale metabolic models reconstruction, which allow us to understand the relationship between genotypes and phenotypes. In order to try to differentiate transport proteins from non-transport ones, two approaches were taken, training and testing machine learning and deep learning models. The data used came from the TCDB database, which contains transport proteins, and from the Swiss-Prot database, where the proteins were filtered to obtain non-transport proteins, obtaining at the end a balanced dataset. Next, using this dataset, features were created from the protein sequences and used to train different machine learning models and deep neural networks. In this approach the models presented a good overall performance, reaching 89% accuracy in the identification of transport proteins. All trained models have a high number of false negatives compared to the number of false positives, indicating that the major failure in the models is the identification of transport proteins as non-transport proteins. The main objective of this project was to use deep learning methods to identify transport proteins, only using their aminoacid sequences as inputs, thus comparing the two approaches. Thus, using only the protein sequences, different neural networks were trained and tested, from recurrent to convolutional neural networks, obtaining an overall performance very similar to that of the previous approach, reaching once more 89% accuracy in the identification of transport proteins. Thus, we have attained models of similar predictive performance without the need to compute features.Rocha, MiguelDias, OscarUniversidade do MinhoSilva, Andrea Ferreira Meireles2019-11-282019-11-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79910eng203019440info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:23:17Zoai:repositorium.sdum.uminho.pt:1822/79910Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:16:58.062158Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Identification and classification of transporter proteins using deep learning models |
title |
Identification and classification of transporter proteins using deep learning models |
spellingShingle |
Identification and classification of transporter proteins using deep learning models Silva, Andrea Ferreira Meireles Deep Learning Machine Learning Modelos Proteínas transportadoras Models Transport proteins Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Identification and classification of transporter proteins using deep learning models |
title_full |
Identification and classification of transporter proteins using deep learning models |
title_fullStr |
Identification and classification of transporter proteins using deep learning models |
title_full_unstemmed |
Identification and classification of transporter proteins using deep learning models |
title_sort |
Identification and classification of transporter proteins using deep learning models |
author |
Silva, Andrea Ferreira Meireles |
author_facet |
Silva, Andrea Ferreira Meireles |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rocha, Miguel Dias, Oscar Universidade do Minho |
dc.contributor.author.fl_str_mv |
Silva, Andrea Ferreira Meireles |
dc.subject.por.fl_str_mv |
Deep Learning Machine Learning Modelos Proteínas transportadoras Models Transport proteins Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Deep Learning Machine Learning Modelos Proteínas transportadoras Models Transport proteins Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Bioinformatics |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-11-28 2019-11-28T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/79910 |
url |
https://hdl.handle.net/1822/79910 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203019440 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132620586483712 |