Development of a computational approach for the identification and annotation of transport proteins

Detalhes bibliográficos
Autor(a) principal: Faria, Daniel Torres Varzim
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/47386
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_006c5b7e6281228a885ecb4d2280d03a
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/47386
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of a computational approach for the identification and annotation of transport proteinsMachine learningTransport proteinsModelsCharacterizationLinguagem máquinaProteínas transportadorasModelosCaracterizaçãoEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformáticaIn the last decade, given the evolution of next-generation sequencing techniques, the number of sequenced genomes has grown exponentially [2]. The framework merlin [1], developed by the Biosystems research group (University of Minho) is a tool capable of generating genome-scale metabolic models. The identification of genes encoding transport proteins and the metabolites transported by them are essential tasks for the development of more robust and accurate genome-scale metabolic models. For this work, seven different machine learning models were trained and tested, using a five-fold cross validation process, on different datasets to identify and classify transport proteins. To prove the value of the developed models, four different datasets composed by well annotated proteins from TCDB and SwissProt were used. Ensembles of the models created using different datasets showed good overall performance with accuracy reaching 91% and low standard error; F1 scores reach 0.90 (+/- 0.00), making them a good solution for the identification and characterization of transport proteins given a new unannotated genome. The models used to identify transport proteins had a bigger number of false negatives compared to false positives (almost three times bigger) meaning that the confidence level of the classification of a protein as a transporter is high, and that these models miss a relevant number of transporter proteins that misclassified.Na última década, dada a evolução nas técnicas de sequenciação de nova geração, o número de genomas sequenciados tem vindo a crescer exponencialmente [1]. A ferramenta merlin, desenvolvida pelo grupo de investigação Biosystems (Universidade do Minho) é uma ferramenta capaz de gerar modelos metabólicos à escala genómica. A identificação de genes que codificam proteínas transportadoras e os metabolitos transportados por estas são tarefas essenciais para o desenvolvimento de modelos metabólicos à escala genómica mais robustos e precisos. Para este trabalho foram treinados e testados sete modelos de aprendizagem máquina diferentes, usando um processo validação cruzada repetido 5 vezes, em conjuntos de dados diferentes, para identificar e classificar proteínas transportadoras. Para provar o valor dos modelos desenvolvidos foram criados quatro conjuntos de dados diferentes compostos por proteínas curadas provenientes das bases de dados TCDB e SwissProt. Os conjuntos de modelos criados usando vários conjuntos de dados apresentaram um bom desempenho global, com o melhor a atingir 91% de acerto e desvio padrão baixo; o valor de F1-score atinge os 0.90 (+/- 0.00), fazendo destes modelos uma boa solução para a identificação e caracterização de proteínas transportadoras dado um genoma não anotado. Os modelos usados para identificar proteínas transportadoras apresentaram um maior número de falsos negativos comparado com o número de falsos positivos (quase três vezes maior) o que significa que os níveis de confiança para uma classificação em proteína transportadora são elevados, e que os modelos falham um número ainda significativo de proteínas transportadoras que são incorretamente ignoradas.Dias, OscarRocha, MiguelUniversidade do MinhoFaria, Daniel Torres Varzim20162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/47386eng201601087info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:24:03Zoai:repositorium.sdum.uminho.pt:1822/47386Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:17:55.946823Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of a computational approach for the identification and annotation of transport proteins
title Development of a computational approach for the identification and annotation of transport proteins
spellingShingle Development of a computational approach for the identification and annotation of transport proteins
Faria, Daniel Torres Varzim
Machine learning
Transport proteins
Models
Characterization
Linguagem máquina
Proteínas transportadoras
Modelos
Caracterização
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Development of a computational approach for the identification and annotation of transport proteins
title_full Development of a computational approach for the identification and annotation of transport proteins
title_fullStr Development of a computational approach for the identification and annotation of transport proteins
title_full_unstemmed Development of a computational approach for the identification and annotation of transport proteins
title_sort Development of a computational approach for the identification and annotation of transport proteins
author Faria, Daniel Torres Varzim
author_facet Faria, Daniel Torres Varzim
author_role author
dc.contributor.none.fl_str_mv Dias, Oscar
Rocha, Miguel
Universidade do Minho
dc.contributor.author.fl_str_mv Faria, Daniel Torres Varzim
dc.subject.por.fl_str_mv Machine learning
Transport proteins
Models
Characterization
Linguagem máquina
Proteínas transportadoras
Modelos
Caracterização
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Machine learning
Transport proteins
Models
Characterization
Linguagem máquina
Proteínas transportadoras
Modelos
Caracterização
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado em Bioinformática
publishDate 2016
dc.date.none.fl_str_mv 2016
2016-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/47386
url http://hdl.handle.net/1822/47386
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 201601087
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132633226018816