PhageDPO: phage depolymerase finder

Detalhes bibliográficos
Autor(a) principal: Duarte, José Alexandre Graça
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/77372
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_10cfd84fad05cbcd031b6e62312ad1a0
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/77372
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling PhageDPO: phage depolymerase finderBacteriophagesDepolymeraseGalaxyMachine learningAprendizagem máquinaBacteriófagosDepolimeraseGalaxyEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformaticsAntibiotic resistance is a severe public health problem. New resistance mechanisms are rapidly emerging and spreading globally, threatening our ability to treat infections. The bacteriophages (phages) arise as a possible solution through their capability of infecting and killing bacteria. Phages are natural bacterial predators: they encode an arsenal of specialized proteins to target their bacterial hosts. One emerging protein is Phages Depolymerases (DPOs), responsible for selective recognition and degradation of bacterial cell surface decorating polysaccharides, turning the bacteria susceptible to external agents. Due to the difficulty in locating these enzymes in the phage genome, we developed PhageDPO, a DPO prediction tool, through machine learning methods. Several classifiers were created, using different datasets and algorithms and tested through cross-validation. The datasets were composed of protein sequences retrieved from the NCBI protein database and by a different number of negative cases. Two models were selected for integration in the tool: the Support Vector Machine (SVM) model created with a dataset containing data of 4311 sequences and the Artificial Neural Network (ANN) model created with a dataset containing data of 7185 sequences. On an independent validation dataset, the SVM model presented 95% accuracy, 98% precision and 91% recall and the ANN model presented 98% accuracy, 99% precision and 96% recall. While the high precision and PECC of the SVM focus on predicting true DPO sequences and avoiding false positives, the ANN ensures that all DPOs are identified due to its high recall. PhageDPO was successfully tested in predicting DPOs of, previously characterized, phages. PhageDPO was integrated into the Galaxy framework (https://bit.ly/3dOam2u), providing a user-friendly graphical interface for wet-lab researchers without computational skills.A resistência aos antibióticos é um sério problema de saúde pública. Novos mecanismos de resistência estão a aparecer e a espalhar-se por todo o mundo, ameaçando a nossa capacidade de tratar infeções. Os bacteriófagos (fagos) surgem como uma solução pela sua capacidade de infeção e lise de bactérias. Os fagos são predadores naturais de bactérias: codificam um arsenal de proteínas especializadas para infeção dos seus hospedeiros. Uma proteína emergente é a depolimerase de polissacarídeos (DPOs) dos fagos, responsável pelo reconhecimento seletivo e degradação dos polissacarídeos presentes na superfície das bactérias, tornando-a suscetível a agentes externos. Devido à sua difícil localização no genoma do fago, foi desenvolvida a ferramenta PhageDPO, para previsão de DPOs, através de métodos de aprendizagem máquina. Vários modelos foram desenvolvidos, com diferentes conjuntos de dados, e testados através de validação cruzada. Os conjuntos de dados são constituídos por sequências protéicas retiradas da base de dados NCBI protein e por números diferentes de casos negativos. Dois modelos foram incorporados na ferramenta: o modelo SVM treinado com dados de 4311 sequências e o modelo ANN treinado com dados de 7185 sequências. Num conjunto independente de dados de validação, o modelo SVM apresentou 95% de exatidão, 98% de precisão e 91 % de sensibilidade e o modelo ANN apresentou 98% de exatidão, 99% de precisão e 96% de sensibilidade. Enquanto que a elevada exatidão e precisão do modelo SVM se foca na previsão de sequências corretamente classificadas, o modelo ANN assegura que todas as DPOs são identificadas devido a sua elevada sensibilidade. A PhageDPO foi testada com sucesso na previsão de DPOs de fagos previamente caracterizados. PhageDPO foi integrado no Galaxy (https://bit.ly/3dOam2u), uma framework com interface gráfica para investigadores sem conhecimento de programaçãoEste estudo contou com o apoio da Fundação para a Ciência e Tecnologia (FCT) portuguesa no âmbito do projeto PhageSTEC PTDC/CVT-CVT/29628/2017 [POCI-01-0145-FEDER-029628]Oliveira, Hugo Alexandre MendesDias, OscarUniversidade do MinhoDuarte, José Alexandre Graça20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/77372eng202950220info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:54:30Zoai:repositorium.sdum.uminho.pt:1822/77372Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:54:04.992610Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv PhageDPO: phage depolymerase finder
title PhageDPO: phage depolymerase finder
spellingShingle PhageDPO: phage depolymerase finder
Duarte, José Alexandre Graça
Bacteriophages
Depolymerase
Galaxy
Machine learning
Aprendizagem máquina
Bacteriófagos
Depolimerase
Galaxy
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short PhageDPO: phage depolymerase finder
title_full PhageDPO: phage depolymerase finder
title_fullStr PhageDPO: phage depolymerase finder
title_full_unstemmed PhageDPO: phage depolymerase finder
title_sort PhageDPO: phage depolymerase finder
author Duarte, José Alexandre Graça
author_facet Duarte, José Alexandre Graça
author_role author
dc.contributor.none.fl_str_mv Oliveira, Hugo Alexandre Mendes
Dias, Oscar
Universidade do Minho
dc.contributor.author.fl_str_mv Duarte, José Alexandre Graça
dc.subject.por.fl_str_mv Bacteriophages
Depolymerase
Galaxy
Machine learning
Aprendizagem máquina
Bacteriófagos
Depolimerase
Galaxy
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Bacteriophages
Depolymerase
Galaxy
Machine learning
Aprendizagem máquina
Bacteriófagos
Depolimerase
Galaxy
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado em Bioinformatics
publishDate 2021
dc.date.none.fl_str_mv 2021
2021-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/77372
url http://hdl.handle.net/1822/77372
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 202950220
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133138928009216