Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados

Detalhes bibliográficos
Autor(a) principal: Lopes, Rita Sofia Conde
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/83544
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_0b89ceaf8958ae37c2660ccd93c27423
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/83544
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciadosDeep LearningGenomaMachine LearningTransportadoresTranspredictGenomeTransportersEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformáticaPor definição, o genoma de um indivíduo é todo o seu ácido desoxirribonucléico (DNA), podendo-se inferir o proteoma a partir do mesmo, uma vez que corresponde à porção de DNA que dá origem ao ácido ribonucleico mensageiro (mRNA). Sabe-se que, em todos os genomas analisados, cerca de 30% do DNA que é transcrito para mRNA codifica para proteínas transportadoras - transportoma. Este, por sua vez, refere-se ao conjunto das proteínas transportadoras de membrana, que apresentam um papel fundamental a nível biológico, tal como transporte de fármacos, e que constituem importantes alvos terapêuticos. Atualmente existe a necessidade de criar ferramentas automáticas que a partir de um proteoma completo permitam inferir quais prováveis proteínas transportadoras membranares. Devido a falta de ferramentas bioinformáticas integradas que auxiliem o estudo dos transportadores, surge a necessidade de criar novas ferramentas, como as apresentadas neste projeto. Para desenvolver estas tecnologias, usou-se por base três diferentes metodologias: i) plataformas disponíveis online, TMHMM, Pred-TMBB, Prosite e CDD, acedidas por meio de API’s e bibliotecas - TransPredict; ii) bibliotecas e ferramentas online usadas para gerar features para criar os datasets e os modelos de Machine Learning; iii) modelos de Deep Learning. Ao longo das etapas de desenvolvimento das diversas metodologias foram extraídas matrizes de confusão de todas as abordagens, de modo a simplicar a análise dos resultados obtidos. No caso dos modelos de ML e DL, fez-se, ainda, a avaliação dos modelos com os dados de teste, antes de serem aplicados nos genomas da Escherichia coli e da Saccharomyces cerevisiae, bem como uma análise exploratória para caracterizar a composição do dataset utilizado para treinar os modelos, principalmente de ML. De todas as abordagens testadas, as que obteveram melhores resultados foi a ferramenta TransPredict e os modelos de DL, com resultados próximos. Verificou-se que os modelos de ML ficaram aquém do esperado. Apesar de se ter detetado algumas limitações e havendo melhorias a implementar, a tarefa foi terminada com sucesso, e este projeto tem potencial para ser mais explorado e desenvolvido, uma vez que constitui um marco importante na investigação dos transportadores, nas diversas áreas de aplicação dos mesmos.By definition, the genome of an individual it’s its entire deoxyribonucleic acid (DNA), and the proteome can be inferred from it, since it corresponds to the portion of DNA that gives rise to messenger ribonucleic acid (mRNA). It is known that, in all the analyzed genomes, about 30% of the DNA that is transcribed to mRNA encodes a transporter protein - transportome. This, in turn, refers to the set of membrane transport proteins, which play a fundamental role at the biological level, such as drug transport, and which constitute important therapeutic targets. Currently there is a need to create automatic tools that, from a complete proteome, allow inferring which likely membrane transport proteins are. These integrated bioinformatics tools will allow the study of transporter proteins at a large scale. To develop these technologies, three different methodologies used in this work: i) available online platforms, TMHMM, Pred-TMBB, Prosite and CDD, accessed through API’s and libraries - TransPredict; ii) libraries and online tools used to generate features to create datasets and Machine Learning models; iii) Deep Learning models. Throughout the development stages of the various methodologies, confusion matrices were extracted from all approaches, in order to simplify the analysis of the results obtained. In the case of the ML and DL models, the models were also evaluated with the test data, before being applied to the genomes of Escherichia coli and Saccharomyces cerevisiae, as well as an exploratory analysis to characterize the composition of the dataset used to train the models, mainly ML. Of all the approaches tested, the tool TransPredict and the DL models presented the best results, with similar results. It was found that the ML models were below expectations. Although some limitations were detected and are still improvements to be implemented, the task was successfully completed. Nevertheless this project has the potential to be further explored and developed, since it constitutes an important milestone in the investigation of transporters, in the different areas of application of the same.Soares, PedroSoares-Silva, Isabel JoãoUniversidade do MinhoLopes, Rita Sofia Conde2022-05-302022-05-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/83544por203239695info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:20:00Zoai:repositorium.sdum.uminho.pt:1822/83544Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:13:03.149501Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
title Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
spellingShingle Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
Lopes, Rita Sofia Conde
Deep Learning
Genoma
Machine Learning
Transportadores
Transpredict
Genome
Transporters
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
title_full Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
title_fullStr Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
title_full_unstemmed Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
title_sort Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
author Lopes, Rita Sofia Conde
author_facet Lopes, Rita Sofia Conde
author_role author
dc.contributor.none.fl_str_mv Soares, Pedro
Soares-Silva, Isabel João
Universidade do Minho
dc.contributor.author.fl_str_mv Lopes, Rita Sofia Conde
dc.subject.por.fl_str_mv Deep Learning
Genoma
Machine Learning
Transportadores
Transpredict
Genome
Transporters
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep Learning
Genoma
Machine Learning
Transportadores
Transpredict
Genome
Transporters
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformática
publishDate 2022
dc.date.none.fl_str_mv 2022-05-30
2022-05-30T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/83544
url https://hdl.handle.net/1822/83544
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 203239695
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132567058776064