Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática

Detalhes bibliográficos
Autor(a) principal: Martins, Pedro de Almeida
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/27610
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
id RCAP_02a58919031ee7e1723eb5cb2257709d
oai_identifier_str oai:repositorio.ul.pt:10451/27610
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Previsão da localização subcelular de proteínas humanas com base em aprendizagem automáticaAprendizagem automáticaLocalização Subcelular de proteínasGene Ontology (GO)MEKAMétodos de transformação do problemaTeses de mestrado - 2017Departamento de Biologia VegetalTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Conhecer a localização subcelular de um dado produto génico (i.e., onde a proteína codificada pelo gene está localizada) é particularmente importante para a anotação funcional das proteínas. Para lidar com o aumento exponencial do número de proteínas descobertas recentemente, foram desenvolvidos métodos computacionais capazes de prever a localização subcelular de proteínas. Uma vez que as proteínas localizadas em determinados compartimentos intracelulares possuem características em comum, os algoritmos de aprendizagem automática podem ser úteis para essa previsão. O objectivo principal deste estudo foi prever a localização subcelular de prote ínas codificadas por 800 genes humanos envolvidos no tráfego da CFTR (regulador de condutância transmembranar de fibrose quística), uma proteína que, quando mutada, causa a doença genética Fibrose Quística.Neste projecto foram analisados os resultados de diferentes algoritmos de classificação disponíveis no MEKA, assim como diferentes métodos de construção de vectores representativos de proteínas. Por um lado, estes vectores foram construídos seguindo duas abordagens baseadas em Gene Ontology (GO): (1) valor 1-0 (presença ou ausência do termo GO) e (2) frequência dos termos GO. Por outro lado, foram consideradas três dimensões distintas dos vectores - 10165-D (todos os termos GO distintos para as proteínas em estudo), 429-D (termos GO essenciais obtidos pelo classificador mEN) e 87-D (termos GO essenciais obtidos pelo classificador mLASSO). Após a extracção dos termos GO e construção dos vectores representativos das proteínas, a localização subcelular das proteínas foi prevista através de três métodos de transformação do problema - Binary Relevance (BR), ClassifierChain (CC) e Label Cardinality (LC) - juntamente com três classificadores single-label - SMO, PART e J48. Estes classificadores foram avaliados através dos métodos 10-fold cross-validation e Leave-one-out cross-validation. Os sete melhores modelos de previsão criados pelo MEKA atingiram uma taxa global de sucesso entre 69,2 e 72,3% (overall actual accuracy) e 76,1 e 80,3% (overall locative accuracy).To know the subcellular localization of a given gene product (i.e., where the protein codified by the gene is located) is particularly helpful to the functional annotation of proteins. In order to better deal with the exponential increase of newly discovered proteins, several computational methods, capable of predicting proteins' subcellular localization, were developed. Since proteins located in particular intracellular compartments share certain common features, Machine Learning (ML) algorithms are useful to predict it. The goal of this study was to predict the subcellular localization of proteins encoded by 800 human genes involved in CFTR (cystic fibrosis transmembrane conductance regulator) traffic, a protein that, when mutated, causes Cystic Fibrosis, a genetic disease. On this project we analyzed different classification algorithms available in MEKA, as well as different methods of construction of vectors representative of proteins. On one hand, the vectors were built following two approaches based on Gene Ontology (GO): (1) 1-0 Value (presence or absence of GO terms) and (2) term-frequency (number of occurences of individual go terms). On the other hand, three different dimensions of the vectors were considered: 10165-D (all distinct GO terms), 429-D (essencial GO terms selected by mEN classifier) and 87-D (essencial GO terms selected by mLASSO classifier). After extracting the GO terms and building the vectors, the subcellular localization of proteins was predicted using three methods of problem transformation - Binary Relevance (BR), Classifier Chain (CC) and Label Cardinality (LC) _ along with three single-label classifiers - SMO, PART and J48. These classifiers were evaluated by the methods of the 10-fold cross-validation and Leave-one-out cross-validation. The seven best predictive models created by MEKA achieved an overall success rate between 69.2 and 72.3% (overall actual accuracy) and between 76.1 and 80.3% (overall locative accuracy).Couto, Francisco José MoreiraAmaral, Margarida, 1958-Repositório da Universidade de LisboaMartins, Pedro de Almeida2017-05-08T10:58:38Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/27610TID:201689189porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:18:44Zoai:repositorio.ul.pt:10451/27610Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:44:01.130792Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
title Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
spellingShingle Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
Martins, Pedro de Almeida
Aprendizagem automática
Localização Subcelular de proteínas
Gene Ontology (GO)
MEKA
Métodos de transformação do problema
Teses de mestrado - 2017
Departamento de Biologia Vegetal
title_short Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
title_full Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
title_fullStr Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
title_full_unstemmed Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
title_sort Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
author Martins, Pedro de Almeida
author_facet Martins, Pedro de Almeida
author_role author
dc.contributor.none.fl_str_mv Couto, Francisco José Moreira
Amaral, Margarida, 1958-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Martins, Pedro de Almeida
dc.subject.por.fl_str_mv Aprendizagem automática
Localização Subcelular de proteínas
Gene Ontology (GO)
MEKA
Métodos de transformação do problema
Teses de mestrado - 2017
Departamento de Biologia Vegetal
topic Aprendizagem automática
Localização Subcelular de proteínas
Gene Ontology (GO)
MEKA
Métodos de transformação do problema
Teses de mestrado - 2017
Departamento de Biologia Vegetal
description Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
publishDate 2017
dc.date.none.fl_str_mv 2017-05-08T10:58:38Z
2017
2017
2017-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/27610
TID:201689189
url http://hdl.handle.net/10451/27610
identifier_str_mv TID:201689189
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134361137709056