PhagePromoter: phage promoters online analysis tool
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/64122 |
Resumo: | Dissertação de mestrado em Bioinformatics |
id |
RCAP_6e67a35699d4279c5a1d4b6273516dd8 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/64122 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
PhagePromoter: phage promoters online analysis toolBacteriophagesGenome annotationPromotersMachine learningModelsBacteriófagosAnotação de genomasPromotoresAprendizagem máquinaModelosCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformaticsIn the last decades, the emergence and evolution of the Next Generation Sequence technologies have revolutionised genomic research, leading to an exponential increase in the number of sequenced genomes. Many of the sequenced genomes belong to bacteriophages (phages), mostly due to their therapeutic potential against bacterial infections. This abundance of genomic data demands the creation of user-friendly bioinformatics tools for performing genome annotation. The most challenging step in phage genome annotation is the identification of regulatory elements, primarily promoters, to understand phage transcription regulation mechanisms. Thus, in this work, PhagePromoter, a tool for promoter prediction in phage genomes, was developed, using machine learning methods. Several models were created using different datasets and machine learning algorithms, such as support vector machines (SVM), artificial neural networks (ANN) and Random Forests (RF). All models were tested using a 5-fold cross-validation process. The datasets were composed by known phage promoter sequences, mainly retrieved from the phiSITE database, and by a different number of negative cases. After optimization, the performance was similar for all models and two were selected to be integrated in the tool: the ANN model created with the dataset containing 1600 negative examples and the SVM model created with the dataset containing 2400 negatives. The ANN model presented 92% of accuracy, 89% of precision and 87% of recall, whereas the SVM model presented 93% of accuracy, 91% of precision and 80% of recall. Hence, the first model will predict more sequences as promoters and may lead to more false positives. The SVM model will return few positive results, but most of them will be correct classified while some real promoters may not be identified by the model. PhagePromoter was integrated in the widely used Galaxy framework, available at https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, which provides a graphical user interface. This tool returns better results when compared to other tools, such as BPROM, PromoterHunter and CNNpromoter_e.Nas últimas décadas, o surgimento e a evolução das tecnologias de Nova Geração de Sequenciação revolucionaram a investigação genómica, levando a um aumento exponencial no número de genomas sequenciados. Muitos destes genomas pertencem aos bacteriófagos (fagos), principalmente devido ao seu potencial terapêutico contra infeções bacterianas. Esta abundância de dados genómicos requer a criação de ferramentas bioinformáticas intuitivas e fáceis de usar, para facilitar a anotação de genomas. O ponto mais difícil da anotação de genomas de fagos é a identificação de elementos reguladores, principalmente promotores, que irá permitir uma melhor compreensão dos mecanismos de regulação da transcrição nos fagos. Assim, neste trabalho, foi desenvolvida uma ferramenta, PhagePromoter, para prever promotores em genomas de fagos, usando métodos de aprendizagem automática. Vários modelos foram desenvolvidos usando diferentes conjuntos de dados e algoritmos, como máquinas de vetor de suporte (SVM), redes neuronais artificiais (ANN) e Random Forests (RF). Todos os modelos foram testados usando o processo de validação cruzada com 5 folds. Os conjuntos de dados são constituídos por sequências de promotores de fagos conhecidas, retiradas maioritariamente da base de dados phiSITE, e por números diferentes de casos negativos. Depois de otimizados, os modelos obtiveram resultados semelhantes e dois foram escolhidos para serem incorporados na ferramenta: o modelo ANN treinado com o conjunto de dados com 1600 exemplos negativos e o modelo SVM treinado com o conjunto de dados com 2400 exemplos negativos. O modelo ANN apresentou 92% de exatidão, 89% de precisão e 87% de sensibilidade, enquanto que o modelo SVM apresentou 93% de exatidão, 91% de precisão e 80% de sensibilidade. Assim, o primeiro modelo irá prever mais sequências como promotoras, podendo originar mais falsos positivos. Já o modelo SVM irá prever poucas sequências como promotoras, mas a maioria estarão corretamente classificadas, enquanto que alguns promotores reais poderão não ser identificados. PhagePromoter foi integrada no Galaxy, uma framework amplamente usada, disponível em https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, que fornece uma interface gráfica para o utilizador. A ferramenta desenvolvida obtém melhores resultados quando comparada com outras ferramentas como BRPOM, PromoterHunter e CNNpromoter_e.Dias, OscarOliveira, Hugo Alexandre MendesUniversidade do MinhoSampaio, Marta Sofia Costa20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/64122eng202335810info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:13:13Zoai:repositorium.sdum.uminho.pt:1822/64122Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:05:16.035050Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
PhagePromoter: phage promoters online analysis tool |
title |
PhagePromoter: phage promoters online analysis tool |
spellingShingle |
PhagePromoter: phage promoters online analysis tool Sampaio, Marta Sofia Costa Bacteriophages Genome annotation Promoters Machine learning Models Bacteriófagos Anotação de genomas Promotores Aprendizagem máquina Modelos Ciências Naturais::Ciências da Computação e da Informação |
title_short |
PhagePromoter: phage promoters online analysis tool |
title_full |
PhagePromoter: phage promoters online analysis tool |
title_fullStr |
PhagePromoter: phage promoters online analysis tool |
title_full_unstemmed |
PhagePromoter: phage promoters online analysis tool |
title_sort |
PhagePromoter: phage promoters online analysis tool |
author |
Sampaio, Marta Sofia Costa |
author_facet |
Sampaio, Marta Sofia Costa |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Oscar Oliveira, Hugo Alexandre Mendes Universidade do Minho |
dc.contributor.author.fl_str_mv |
Sampaio, Marta Sofia Costa |
dc.subject.por.fl_str_mv |
Bacteriophages Genome annotation Promoters Machine learning Models Bacteriófagos Anotação de genomas Promotores Aprendizagem máquina Modelos Ciências Naturais::Ciências da Computação e da Informação |
topic |
Bacteriophages Genome annotation Promoters Machine learning Models Bacteriófagos Anotação de genomas Promotores Aprendizagem máquina Modelos Ciências Naturais::Ciências da Computação e da Informação |
description |
Dissertação de mestrado em Bioinformatics |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 2018-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/64122 |
url |
https://hdl.handle.net/1822/64122 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
202335810 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132464263725056 |