Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/83544 |
Resumo: | Dissertação de mestrado em Bioinformática |
id |
RCAP_0b89ceaf8958ae37c2660ccd93c27423 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/83544 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciadosDeep LearningGenomaMachine LearningTransportadoresTranspredictGenomeTransportersEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformáticaPor definição, o genoma de um indivíduo é todo o seu ácido desoxirribonucléico (DNA), podendo-se inferir o proteoma a partir do mesmo, uma vez que corresponde à porção de DNA que dá origem ao ácido ribonucleico mensageiro (mRNA). Sabe-se que, em todos os genomas analisados, cerca de 30% do DNA que é transcrito para mRNA codifica para proteínas transportadoras - transportoma. Este, por sua vez, refere-se ao conjunto das proteínas transportadoras de membrana, que apresentam um papel fundamental a nível biológico, tal como transporte de fármacos, e que constituem importantes alvos terapêuticos. Atualmente existe a necessidade de criar ferramentas automáticas que a partir de um proteoma completo permitam inferir quais prováveis proteínas transportadoras membranares. Devido a falta de ferramentas bioinformáticas integradas que auxiliem o estudo dos transportadores, surge a necessidade de criar novas ferramentas, como as apresentadas neste projeto. Para desenvolver estas tecnologias, usou-se por base três diferentes metodologias: i) plataformas disponíveis online, TMHMM, Pred-TMBB, Prosite e CDD, acedidas por meio de API’s e bibliotecas - TransPredict; ii) bibliotecas e ferramentas online usadas para gerar features para criar os datasets e os modelos de Machine Learning; iii) modelos de Deep Learning. Ao longo das etapas de desenvolvimento das diversas metodologias foram extraídas matrizes de confusão de todas as abordagens, de modo a simplicar a análise dos resultados obtidos. No caso dos modelos de ML e DL, fez-se, ainda, a avaliação dos modelos com os dados de teste, antes de serem aplicados nos genomas da Escherichia coli e da Saccharomyces cerevisiae, bem como uma análise exploratória para caracterizar a composição do dataset utilizado para treinar os modelos, principalmente de ML. De todas as abordagens testadas, as que obteveram melhores resultados foi a ferramenta TransPredict e os modelos de DL, com resultados próximos. Verificou-se que os modelos de ML ficaram aquém do esperado. Apesar de se ter detetado algumas limitações e havendo melhorias a implementar, a tarefa foi terminada com sucesso, e este projeto tem potencial para ser mais explorado e desenvolvido, uma vez que constitui um marco importante na investigação dos transportadores, nas diversas áreas de aplicação dos mesmos.By definition, the genome of an individual it’s its entire deoxyribonucleic acid (DNA), and the proteome can be inferred from it, since it corresponds to the portion of DNA that gives rise to messenger ribonucleic acid (mRNA). It is known that, in all the analyzed genomes, about 30% of the DNA that is transcribed to mRNA encodes a transporter protein - transportome. This, in turn, refers to the set of membrane transport proteins, which play a fundamental role at the biological level, such as drug transport, and which constitute important therapeutic targets. Currently there is a need to create automatic tools that, from a complete proteome, allow inferring which likely membrane transport proteins are. These integrated bioinformatics tools will allow the study of transporter proteins at a large scale. To develop these technologies, three different methodologies used in this work: i) available online platforms, TMHMM, Pred-TMBB, Prosite and CDD, accessed through API’s and libraries - TransPredict; ii) libraries and online tools used to generate features to create datasets and Machine Learning models; iii) Deep Learning models. Throughout the development stages of the various methodologies, confusion matrices were extracted from all approaches, in order to simplify the analysis of the results obtained. In the case of the ML and DL models, the models were also evaluated with the test data, before being applied to the genomes of Escherichia coli and Saccharomyces cerevisiae, as well as an exploratory analysis to characterize the composition of the dataset used to train the models, mainly ML. Of all the approaches tested, the tool TransPredict and the DL models presented the best results, with similar results. It was found that the ML models were below expectations. Although some limitations were detected and are still improvements to be implemented, the task was successfully completed. Nevertheless this project has the potential to be further explored and developed, since it constitutes an important milestone in the investigation of transporters, in the different areas of application of the same.Soares, PedroSoares-Silva, Isabel JoãoUniversidade do MinhoLopes, Rita Sofia Conde2022-05-302022-05-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/83544por203239695info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:20:00Zoai:repositorium.sdum.uminho.pt:1822/83544Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:13:03.149501Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
title |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
spellingShingle |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados Lopes, Rita Sofia Conde Deep Learning Genoma Machine Learning Transportadores Transpredict Genome Transporters Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
title_full |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
title_fullStr |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
title_full_unstemmed |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
title_sort |
Desenvolvimento e validação de uma ferramenta para identificação de transportomas em genomas sequenciados |
author |
Lopes, Rita Sofia Conde |
author_facet |
Lopes, Rita Sofia Conde |
author_role |
author |
dc.contributor.none.fl_str_mv |
Soares, Pedro Soares-Silva, Isabel João Universidade do Minho |
dc.contributor.author.fl_str_mv |
Lopes, Rita Sofia Conde |
dc.subject.por.fl_str_mv |
Deep Learning Genoma Machine Learning Transportadores Transpredict Genome Transporters Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Deep Learning Genoma Machine Learning Transportadores Transpredict Genome Transporters Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Bioinformática |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-05-30 2022-05-30T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/83544 |
url |
https://hdl.handle.net/1822/83544 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
203239695 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132567058776064 |