Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/27610 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017 |
id |
RCAP_02a58919031ee7e1723eb5cb2257709d |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/27610 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automáticaAprendizagem automáticaLocalização Subcelular de proteínasGene Ontology (GO)MEKAMétodos de transformação do problemaTeses de mestrado - 2017Departamento de Biologia VegetalTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Conhecer a localização subcelular de um dado produto génico (i.e., onde a proteína codificada pelo gene está localizada) é particularmente importante para a anotação funcional das proteínas. Para lidar com o aumento exponencial do número de proteínas descobertas recentemente, foram desenvolvidos métodos computacionais capazes de prever a localização subcelular de proteínas. Uma vez que as proteínas localizadas em determinados compartimentos intracelulares possuem características em comum, os algoritmos de aprendizagem automática podem ser úteis para essa previsão. O objectivo principal deste estudo foi prever a localização subcelular de prote ínas codificadas por 800 genes humanos envolvidos no tráfego da CFTR (regulador de condutância transmembranar de fibrose quística), uma proteína que, quando mutada, causa a doença genética Fibrose Quística.Neste projecto foram analisados os resultados de diferentes algoritmos de classificação disponíveis no MEKA, assim como diferentes métodos de construção de vectores representativos de proteínas. Por um lado, estes vectores foram construídos seguindo duas abordagens baseadas em Gene Ontology (GO): (1) valor 1-0 (presença ou ausência do termo GO) e (2) frequência dos termos GO. Por outro lado, foram consideradas três dimensões distintas dos vectores - 10165-D (todos os termos GO distintos para as proteínas em estudo), 429-D (termos GO essenciais obtidos pelo classificador mEN) e 87-D (termos GO essenciais obtidos pelo classificador mLASSO). Após a extracção dos termos GO e construção dos vectores representativos das proteínas, a localização subcelular das proteínas foi prevista através de três métodos de transformação do problema - Binary Relevance (BR), ClassifierChain (CC) e Label Cardinality (LC) - juntamente com três classificadores single-label - SMO, PART e J48. Estes classificadores foram avaliados através dos métodos 10-fold cross-validation e Leave-one-out cross-validation. Os sete melhores modelos de previsão criados pelo MEKA atingiram uma taxa global de sucesso entre 69,2 e 72,3% (overall actual accuracy) e 76,1 e 80,3% (overall locative accuracy).To know the subcellular localization of a given gene product (i.e., where the protein codified by the gene is located) is particularly helpful to the functional annotation of proteins. In order to better deal with the exponential increase of newly discovered proteins, several computational methods, capable of predicting proteins' subcellular localization, were developed. Since proteins located in particular intracellular compartments share certain common features, Machine Learning (ML) algorithms are useful to predict it. The goal of this study was to predict the subcellular localization of proteins encoded by 800 human genes involved in CFTR (cystic fibrosis transmembrane conductance regulator) traffic, a protein that, when mutated, causes Cystic Fibrosis, a genetic disease. On this project we analyzed different classification algorithms available in MEKA, as well as different methods of construction of vectors representative of proteins. On one hand, the vectors were built following two approaches based on Gene Ontology (GO): (1) 1-0 Value (presence or absence of GO terms) and (2) term-frequency (number of occurences of individual go terms). On the other hand, three different dimensions of the vectors were considered: 10165-D (all distinct GO terms), 429-D (essencial GO terms selected by mEN classifier) and 87-D (essencial GO terms selected by mLASSO classifier). After extracting the GO terms and building the vectors, the subcellular localization of proteins was predicted using three methods of problem transformation - Binary Relevance (BR), Classifier Chain (CC) and Label Cardinality (LC) _ along with three single-label classifiers - SMO, PART and J48. These classifiers were evaluated by the methods of the 10-fold cross-validation and Leave-one-out cross-validation. The seven best predictive models created by MEKA achieved an overall success rate between 69.2 and 72.3% (overall actual accuracy) and between 76.1 and 80.3% (overall locative accuracy).Couto, Francisco José MoreiraAmaral, Margarida, 1958-Repositório da Universidade de LisboaMartins, Pedro de Almeida2017-05-08T10:58:38Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/27610TID:201689189porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:18:44Zoai:repositorio.ul.pt:10451/27610Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:44:01.130792Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
title |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
spellingShingle |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática Martins, Pedro de Almeida Aprendizagem automática Localização Subcelular de proteínas Gene Ontology (GO) MEKA Métodos de transformação do problema Teses de mestrado - 2017 Departamento de Biologia Vegetal |
title_short |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
title_full |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
title_fullStr |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
title_full_unstemmed |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
title_sort |
Previsão da localização subcelular de proteínas humanas com base em aprendizagem automática |
author |
Martins, Pedro de Almeida |
author_facet |
Martins, Pedro de Almeida |
author_role |
author |
dc.contributor.none.fl_str_mv |
Couto, Francisco José Moreira Amaral, Margarida, 1958- Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Martins, Pedro de Almeida |
dc.subject.por.fl_str_mv |
Aprendizagem automática Localização Subcelular de proteínas Gene Ontology (GO) MEKA Métodos de transformação do problema Teses de mestrado - 2017 Departamento de Biologia Vegetal |
topic |
Aprendizagem automática Localização Subcelular de proteínas Gene Ontology (GO) MEKA Métodos de transformação do problema Teses de mestrado - 2017 Departamento de Biologia Vegetal |
description |
Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017 |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-05-08T10:58:38Z 2017 2017 2017-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/27610 TID:201689189 |
url |
http://hdl.handle.net/10451/27610 |
identifier_str_mv |
TID:201689189 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134361137709056 |