Mining metagenomics datasets for novel plastic-degrading enzymes

Detalhes bibliográficos
Autor(a) principal: Freitas, José Pedro Silva
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/87218
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_df00152d9ea16fed9269eaff976aa2db
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/87218
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Mining metagenomics datasets for novel plastic-degrading enzymesBiodegradação de plásticosFerramenta bioinformáticaMineração de dados ómicosConstrução de Hidden Markov ModelsPlastic biodegradationBioinformatics toolOmics data miningHidden Markov Models constructionEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformáticaA crescente quantidade de dados depositados em bases de dados públicas sem anotação pode ocultar uma série de genes e proteínas cuja função ainda é desconhecida. Com base no conhecimento de algumas enzimas capazes de catalisar reações com interesse ambiental ou biotecnológico, será possível encontrar em bases de dados de proteínas ou em conjuntos de dados ómicos, outras com atividade semelhante, que eventualmente poderão ser mais eficientes. No entanto, não existem ferramentas bioinformáticas projetadas para encontrar proteínas de interesse em grandes conjuntos de dados. Neste trabalho, uma ferramenta de bioinformática foi desenvolvida e denominada Mining Protein dAtasets foR Targeted enzYmes (M-PARTY) para minerar enzimas alvo em grandes conjuntos de dados. M-PARTY recebe um ficheiro FASTA contendo as enzimas alvo e automaticamente produz bases de dados de Hidden Markov Model, valida e filtra os modelos não validados. M PARTY procura sequências homólogas em determinados conjuntos de dados e identifica as proteínas mais semelhantes, que apresentam potencialmente as mesmas atividades das enzimas alvo. A M-PARTY é uma Interface de Linha de Comando de uso gratuito, corre no sistema operacional Linux com apenas um comando, é de código aberto e foi desenvolvida em Python. Esta ferramenta foi testada para encontrar enzimas envolvidas na biodegradação do polietileno em metagenomas hidrotermais e marinhos. A partir de 5 sequências proteicas iniciais, 329 HMMs foram gerados pelo M PARTY e 103 foram descartados após a etapa de validação. Um total de 19 proteínas apresentaram homologia significativa com as 5 enzimas alvo, sendo enzimas potencialmente degradadoras de polietileno. Esta ferramenta será muito útil para realizar uma primeira triagem de enzimas de interesse em diferentes ambientes, antecedendo uma posterior confirmação da atividade enzimática e eventual implementação.There is an increasing amount of data deposited in public databases that is poorly annotated and may hide a number of genes and proteins whose function is yet unknown. By knowing some enzymes that are capable to catalyze reactions with environmental or biotechnological interest, it would be possible to find other enzymes in databases or in omics datasets with similar activity, and which could be even more efficient. However, there are no bioinformatics tools designed to find proteins of interest in large datasets, such as those from metagenomics experiments. In this work, a bioinformatics tool was developed, named Mining Protein dAtasets foR Target enzYmes (M-PARTY), for mining target enzymes in big datasets. M-PARTY receives a FASTA file containing the target enzymes, and automatically produces Hidden Markov Model databases, validating, and filtering the non-validated models. M-PARTY searches for homolog sequences in given datasets and identifies the most similar proteins, which present potentially the same activities of the target enzymes. M-PARTY is a free-to-use Command Line Interface, runs on Linux operating system with only a command, is open source, and was developed in Python. This tool was tested to find enzymes involved in polyethylene biodegradation in hydrothermal and marine metagenomes. From 5 initial protein sequences, 329 HMMs were generated by M-PARTY, and 103 were discarded after the validation step. A total of 19 proteins showed significant homology to the 5 target enzymes, being potentially polyethylene-degrading enzymes. This tool will be especially useful for performing a first screening of enzymes of interest in different environments, preceding further enzymatic activity confirmation and eventual implementation on biotechnological processes.Rocha, MiguelSalvador, Andreia Filipa FerreiraUniversidade do MinhoFreitas, José Pedro Silva2022-11-292022-11-29T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/87218eng203382153info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-11T01:16:48Zoai:repositorium.sdum.uminho.pt:1822/87218Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:37:54.915328Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Mining metagenomics datasets for novel plastic-degrading enzymes
title Mining metagenomics datasets for novel plastic-degrading enzymes
spellingShingle Mining metagenomics datasets for novel plastic-degrading enzymes
Freitas, José Pedro Silva
Biodegradação de plásticos
Ferramenta bioinformática
Mineração de dados ómicos
Construção de Hidden Markov Models
Plastic biodegradation
Bioinformatics tool
Omics data mining
Hidden Markov Models construction
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Mining metagenomics datasets for novel plastic-degrading enzymes
title_full Mining metagenomics datasets for novel plastic-degrading enzymes
title_fullStr Mining metagenomics datasets for novel plastic-degrading enzymes
title_full_unstemmed Mining metagenomics datasets for novel plastic-degrading enzymes
title_sort Mining metagenomics datasets for novel plastic-degrading enzymes
author Freitas, José Pedro Silva
author_facet Freitas, José Pedro Silva
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Salvador, Andreia Filipa Ferreira
Universidade do Minho
dc.contributor.author.fl_str_mv Freitas, José Pedro Silva
dc.subject.por.fl_str_mv Biodegradação de plásticos
Ferramenta bioinformática
Mineração de dados ómicos
Construção de Hidden Markov Models
Plastic biodegradation
Bioinformatics tool
Omics data mining
Hidden Markov Models construction
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Biodegradação de plásticos
Ferramenta bioinformática
Mineração de dados ómicos
Construção de Hidden Markov Models
Plastic biodegradation
Bioinformatics tool
Omics data mining
Hidden Markov Models construction
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado em Bioinformática
publishDate 2022
dc.date.none.fl_str_mv 2022-11-29
2022-11-29T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/87218
url https://hdl.handle.net/1822/87218
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203382153
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134937986629632