PhageDPO: phage depolymerase finder
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/77372 |
Resumo: | Dissertação de mestrado em Bioinformatics |
id |
RCAP_10cfd84fad05cbcd031b6e62312ad1a0 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/77372 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
PhageDPO: phage depolymerase finderBacteriophagesDepolymeraseGalaxyMachine learningAprendizagem máquinaBacteriófagosDepolimeraseGalaxyEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformaticsAntibiotic resistance is a severe public health problem. New resistance mechanisms are rapidly emerging and spreading globally, threatening our ability to treat infections. The bacteriophages (phages) arise as a possible solution through their capability of infecting and killing bacteria. Phages are natural bacterial predators: they encode an arsenal of specialized proteins to target their bacterial hosts. One emerging protein is Phages Depolymerases (DPOs), responsible for selective recognition and degradation of bacterial cell surface decorating polysaccharides, turning the bacteria susceptible to external agents. Due to the difficulty in locating these enzymes in the phage genome, we developed PhageDPO, a DPO prediction tool, through machine learning methods. Several classifiers were created, using different datasets and algorithms and tested through cross-validation. The datasets were composed of protein sequences retrieved from the NCBI protein database and by a different number of negative cases. Two models were selected for integration in the tool: the Support Vector Machine (SVM) model created with a dataset containing data of 4311 sequences and the Artificial Neural Network (ANN) model created with a dataset containing data of 7185 sequences. On an independent validation dataset, the SVM model presented 95% accuracy, 98% precision and 91% recall and the ANN model presented 98% accuracy, 99% precision and 96% recall. While the high precision and PECC of the SVM focus on predicting true DPO sequences and avoiding false positives, the ANN ensures that all DPOs are identified due to its high recall. PhageDPO was successfully tested in predicting DPOs of, previously characterized, phages. PhageDPO was integrated into the Galaxy framework (https://bit.ly/3dOam2u), providing a user-friendly graphical interface for wet-lab researchers without computational skills.A resistência aos antibióticos é um sério problema de saúde pública. Novos mecanismos de resistência estão a aparecer e a espalhar-se por todo o mundo, ameaçando a nossa capacidade de tratar infeções. Os bacteriófagos (fagos) surgem como uma solução pela sua capacidade de infeção e lise de bactérias. Os fagos são predadores naturais de bactérias: codificam um arsenal de proteínas especializadas para infeção dos seus hospedeiros. Uma proteína emergente é a depolimerase de polissacarídeos (DPOs) dos fagos, responsável pelo reconhecimento seletivo e degradação dos polissacarídeos presentes na superfície das bactérias, tornando-a suscetível a agentes externos. Devido à sua difícil localização no genoma do fago, foi desenvolvida a ferramenta PhageDPO, para previsão de DPOs, através de métodos de aprendizagem máquina. Vários modelos foram desenvolvidos, com diferentes conjuntos de dados, e testados através de validação cruzada. Os conjuntos de dados são constituídos por sequências protéicas retiradas da base de dados NCBI protein e por números diferentes de casos negativos. Dois modelos foram incorporados na ferramenta: o modelo SVM treinado com dados de 4311 sequências e o modelo ANN treinado com dados de 7185 sequências. Num conjunto independente de dados de validação, o modelo SVM apresentou 95% de exatidão, 98% de precisão e 91 % de sensibilidade e o modelo ANN apresentou 98% de exatidão, 99% de precisão e 96% de sensibilidade. Enquanto que a elevada exatidão e precisão do modelo SVM se foca na previsão de sequências corretamente classificadas, o modelo ANN assegura que todas as DPOs são identificadas devido a sua elevada sensibilidade. A PhageDPO foi testada com sucesso na previsão de DPOs de fagos previamente caracterizados. PhageDPO foi integrado no Galaxy (https://bit.ly/3dOam2u), uma framework com interface gráfica para investigadores sem conhecimento de programaçãoEste estudo contou com o apoio da Fundação para a Ciência e Tecnologia (FCT) portuguesa no âmbito do projeto PhageSTEC PTDC/CVT-CVT/29628/2017 [POCI-01-0145-FEDER-029628]Oliveira, Hugo Alexandre MendesDias, OscarUniversidade do MinhoDuarte, José Alexandre Graça20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/77372eng202950220info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:54:30Zoai:repositorium.sdum.uminho.pt:1822/77372Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:54:04.992610Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
PhageDPO: phage depolymerase finder |
title |
PhageDPO: phage depolymerase finder |
spellingShingle |
PhageDPO: phage depolymerase finder Duarte, José Alexandre Graça Bacteriophages Depolymerase Galaxy Machine learning Aprendizagem máquina Bacteriófagos Depolimerase Galaxy Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
title_short |
PhageDPO: phage depolymerase finder |
title_full |
PhageDPO: phage depolymerase finder |
title_fullStr |
PhageDPO: phage depolymerase finder |
title_full_unstemmed |
PhageDPO: phage depolymerase finder |
title_sort |
PhageDPO: phage depolymerase finder |
author |
Duarte, José Alexandre Graça |
author_facet |
Duarte, José Alexandre Graça |
author_role |
author |
dc.contributor.none.fl_str_mv |
Oliveira, Hugo Alexandre Mendes Dias, Oscar Universidade do Minho |
dc.contributor.author.fl_str_mv |
Duarte, José Alexandre Graça |
dc.subject.por.fl_str_mv |
Bacteriophages Depolymerase Galaxy Machine learning Aprendizagem máquina Bacteriófagos Depolimerase Galaxy Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
topic |
Bacteriophages Depolymerase Galaxy Machine learning Aprendizagem máquina Bacteriófagos Depolimerase Galaxy Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
description |
Dissertação de mestrado em Bioinformatics |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2021-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/77372 |
url |
http://hdl.handle.net/1822/77372 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
202950220 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133138928009216 |