Development of a computational approach for the identification and annotation of transport proteins
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/47386 |
Resumo: | Dissertação de mestrado em Bioinformática |
id |
RCAP_006c5b7e6281228a885ecb4d2280d03a |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/47386 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development of a computational approach for the identification and annotation of transport proteinsMachine learningTransport proteinsModelsCharacterizationLinguagem máquinaProteínas transportadorasModelosCaracterizaçãoEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformáticaIn the last decade, given the evolution of next-generation sequencing techniques, the number of sequenced genomes has grown exponentially [2]. The framework merlin [1], developed by the Biosystems research group (University of Minho) is a tool capable of generating genome-scale metabolic models. The identification of genes encoding transport proteins and the metabolites transported by them are essential tasks for the development of more robust and accurate genome-scale metabolic models. For this work, seven different machine learning models were trained and tested, using a five-fold cross validation process, on different datasets to identify and classify transport proteins. To prove the value of the developed models, four different datasets composed by well annotated proteins from TCDB and SwissProt were used. Ensembles of the models created using different datasets showed good overall performance with accuracy reaching 91% and low standard error; F1 scores reach 0.90 (+/- 0.00), making them a good solution for the identification and characterization of transport proteins given a new unannotated genome. The models used to identify transport proteins had a bigger number of false negatives compared to false positives (almost three times bigger) meaning that the confidence level of the classification of a protein as a transporter is high, and that these models miss a relevant number of transporter proteins that misclassified.Na última década, dada a evolução nas técnicas de sequenciação de nova geração, o número de genomas sequenciados tem vindo a crescer exponencialmente [1]. A ferramenta merlin, desenvolvida pelo grupo de investigação Biosystems (Universidade do Minho) é uma ferramenta capaz de gerar modelos metabólicos à escala genómica. A identificação de genes que codificam proteínas transportadoras e os metabolitos transportados por estas são tarefas essenciais para o desenvolvimento de modelos metabólicos à escala genómica mais robustos e precisos. Para este trabalho foram treinados e testados sete modelos de aprendizagem máquina diferentes, usando um processo validação cruzada repetido 5 vezes, em conjuntos de dados diferentes, para identificar e classificar proteínas transportadoras. Para provar o valor dos modelos desenvolvidos foram criados quatro conjuntos de dados diferentes compostos por proteínas curadas provenientes das bases de dados TCDB e SwissProt. Os conjuntos de modelos criados usando vários conjuntos de dados apresentaram um bom desempenho global, com o melhor a atingir 91% de acerto e desvio padrão baixo; o valor de F1-score atinge os 0.90 (+/- 0.00), fazendo destes modelos uma boa solução para a identificação e caracterização de proteínas transportadoras dado um genoma não anotado. Os modelos usados para identificar proteínas transportadoras apresentaram um maior número de falsos negativos comparado com o número de falsos positivos (quase três vezes maior) o que significa que os níveis de confiança para uma classificação em proteína transportadora são elevados, e que os modelos falham um número ainda significativo de proteínas transportadoras que são incorretamente ignoradas.Dias, OscarRocha, MiguelUniversidade do MinhoFaria, Daniel Torres Varzim20162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/47386eng201601087info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:24:03Zoai:repositorium.sdum.uminho.pt:1822/47386Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:17:55.946823Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development of a computational approach for the identification and annotation of transport proteins |
title |
Development of a computational approach for the identification and annotation of transport proteins |
spellingShingle |
Development of a computational approach for the identification and annotation of transport proteins Faria, Daniel Torres Varzim Machine learning Transport proteins Models Characterization Linguagem máquina Proteínas transportadoras Modelos Caracterização Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
title_short |
Development of a computational approach for the identification and annotation of transport proteins |
title_full |
Development of a computational approach for the identification and annotation of transport proteins |
title_fullStr |
Development of a computational approach for the identification and annotation of transport proteins |
title_full_unstemmed |
Development of a computational approach for the identification and annotation of transport proteins |
title_sort |
Development of a computational approach for the identification and annotation of transport proteins |
author |
Faria, Daniel Torres Varzim |
author_facet |
Faria, Daniel Torres Varzim |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Oscar Rocha, Miguel Universidade do Minho |
dc.contributor.author.fl_str_mv |
Faria, Daniel Torres Varzim |
dc.subject.por.fl_str_mv |
Machine learning Transport proteins Models Characterization Linguagem máquina Proteínas transportadoras Modelos Caracterização Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
topic |
Machine learning Transport proteins Models Characterization Linguagem máquina Proteínas transportadoras Modelos Caracterização Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
description |
Dissertação de mestrado em Bioinformática |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016 2016-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/47386 |
url |
http://hdl.handle.net/1822/47386 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
201601087 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132633226018816 |