PhagePromoter: phage promoters online analysis tool

Detalhes bibliográficos
Autor(a) principal: Sampaio, Marta Sofia Costa
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/64122
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_6e67a35699d4279c5a1d4b6273516dd8
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/64122
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling PhagePromoter: phage promoters online analysis toolBacteriophagesGenome annotationPromotersMachine learningModelsBacteriófagosAnotação de genomasPromotoresAprendizagem máquinaModelosCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformaticsIn the last decades, the emergence and evolution of the Next Generation Sequence technologies have revolutionised genomic research, leading to an exponential increase in the number of sequenced genomes. Many of the sequenced genomes belong to bacteriophages (phages), mostly due to their therapeutic potential against bacterial infections. This abundance of genomic data demands the creation of user-friendly bioinformatics tools for performing genome annotation. The most challenging step in phage genome annotation is the identification of regulatory elements, primarily promoters, to understand phage transcription regulation mechanisms. Thus, in this work, PhagePromoter, a tool for promoter prediction in phage genomes, was developed, using machine learning methods. Several models were created using different datasets and machine learning algorithms, such as support vector machines (SVM), artificial neural networks (ANN) and Random Forests (RF). All models were tested using a 5-fold cross-validation process. The datasets were composed by known phage promoter sequences, mainly retrieved from the phiSITE database, and by a different number of negative cases. After optimization, the performance was similar for all models and two were selected to be integrated in the tool: the ANN model created with the dataset containing 1600 negative examples and the SVM model created with the dataset containing 2400 negatives. The ANN model presented 92% of accuracy, 89% of precision and 87% of recall, whereas the SVM model presented 93% of accuracy, 91% of precision and 80% of recall. Hence, the first model will predict more sequences as promoters and may lead to more false positives. The SVM model will return few positive results, but most of them will be correct classified while some real promoters may not be identified by the model. PhagePromoter was integrated in the widely used Galaxy framework, available at https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, which provides a graphical user interface. This tool returns better results when compared to other tools, such as BPROM, PromoterHunter and CNNpromoter_e.Nas últimas décadas, o surgimento e a evolução das tecnologias de Nova Geração de Sequenciação revolucionaram a investigação genómica, levando a um aumento exponencial no número de genomas sequenciados. Muitos destes genomas pertencem aos bacteriófagos (fagos), principalmente devido ao seu potencial terapêutico contra infeções bacterianas. Esta abundância de dados genómicos requer a criação de ferramentas bioinformáticas intuitivas e fáceis de usar, para facilitar a anotação de genomas. O ponto mais difícil da anotação de genomas de fagos é a identificação de elementos reguladores, principalmente promotores, que irá permitir uma melhor compreensão dos mecanismos de regulação da transcrição nos fagos. Assim, neste trabalho, foi desenvolvida uma ferramenta, PhagePromoter, para prever promotores em genomas de fagos, usando métodos de aprendizagem automática. Vários modelos foram desenvolvidos usando diferentes conjuntos de dados e algoritmos, como máquinas de vetor de suporte (SVM), redes neuronais artificiais (ANN) e Random Forests (RF). Todos os modelos foram testados usando o processo de validação cruzada com 5 folds. Os conjuntos de dados são constituídos por sequências de promotores de fagos conhecidas, retiradas maioritariamente da base de dados phiSITE, e por números diferentes de casos negativos. Depois de otimizados, os modelos obtiveram resultados semelhantes e dois foram escolhidos para serem incorporados na ferramenta: o modelo ANN treinado com o conjunto de dados com 1600 exemplos negativos e o modelo SVM treinado com o conjunto de dados com 2400 exemplos negativos. O modelo ANN apresentou 92% de exatidão, 89% de precisão e 87% de sensibilidade, enquanto que o modelo SVM apresentou 93% de exatidão, 91% de precisão e 80% de sensibilidade. Assim, o primeiro modelo irá prever mais sequências como promotoras, podendo originar mais falsos positivos. Já o modelo SVM irá prever poucas sequências como promotoras, mas a maioria estarão corretamente classificadas, enquanto que alguns promotores reais poderão não ser identificados. PhagePromoter foi integrada no Galaxy, uma framework amplamente usada, disponível em https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, que fornece uma interface gráfica para o utilizador. A ferramenta desenvolvida obtém melhores resultados quando comparada com outras ferramentas como BRPOM, PromoterHunter e CNNpromoter_e.Dias, OscarOliveira, Hugo Alexandre MendesUniversidade do MinhoSampaio, Marta Sofia Costa20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/64122eng202335810info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:13:13Zoai:repositorium.sdum.uminho.pt:1822/64122Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:05:16.035050Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv PhagePromoter: phage promoters online analysis tool
title PhagePromoter: phage promoters online analysis tool
spellingShingle PhagePromoter: phage promoters online analysis tool
Sampaio, Marta Sofia Costa
Bacteriophages
Genome annotation
Promoters
Machine learning
Models
Bacteriófagos
Anotação de genomas
Promotores
Aprendizagem máquina
Modelos
Ciências Naturais::Ciências da Computação e da Informação
title_short PhagePromoter: phage promoters online analysis tool
title_full PhagePromoter: phage promoters online analysis tool
title_fullStr PhagePromoter: phage promoters online analysis tool
title_full_unstemmed PhagePromoter: phage promoters online analysis tool
title_sort PhagePromoter: phage promoters online analysis tool
author Sampaio, Marta Sofia Costa
author_facet Sampaio, Marta Sofia Costa
author_role author
dc.contributor.none.fl_str_mv Dias, Oscar
Oliveira, Hugo Alexandre Mendes
Universidade do Minho
dc.contributor.author.fl_str_mv Sampaio, Marta Sofia Costa
dc.subject.por.fl_str_mv Bacteriophages
Genome annotation
Promoters
Machine learning
Models
Bacteriófagos
Anotação de genomas
Promotores
Aprendizagem máquina
Modelos
Ciências Naturais::Ciências da Computação e da Informação
topic Bacteriophages
Genome annotation
Promoters
Machine learning
Models
Bacteriófagos
Anotação de genomas
Promotores
Aprendizagem máquina
Modelos
Ciências Naturais::Ciências da Computação e da Informação
description Dissertação de mestrado em Bioinformatics
publishDate 2018
dc.date.none.fl_str_mv 2018
2018-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/64122
url https://hdl.handle.net/1822/64122
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 202335810
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132464263725056