PGP: prokaryote gene prediction software

Detalhes bibliográficos
Autor(a) principal: Pacheco, José Carlos Ribeiro
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/27894
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_d73e86502ca23c605b3e3337cfdf4b83
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/27894
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling PGP: prokaryote gene prediction softwareAb initioBactériaGenomaHomologiaPrevisão de genesSequenciaçãoGenomeHomologyGene predictionSequencing681.3:5757:681.3Dissertação de mestrado em BioinformáticaA correta previsão e anotação de genes bacterianos é essencial para a aplicação da informação contida no ADN em muitos tópicos de pesquisa (bio)médica, como microbiologia, imunologia e doenças infeciosas. Embora existam vários softwares de previsão de genes bacterianos como GenemarkHMM, Glimmer e Prodigal e pipelines completos como ISGA, xBASE, Maker e Consensus Prediction, a previsão de genes pode ser melhorada. O principal objetivo deste trabalho foi o desenvolvimento de um pipeline de previsão de genes bacterianos, o Prokaryote Gene Prediction (PGP), que combina métodos de ab initio e de homologia. Uma vez que o software ab initio Prodigal mostrou um melhor desempenho relativamente a outros softwares estudados, foi usado como o passo inicial para o PGP. Considerando as proteínas previstas pelo Prodigal, o PGP a) analisa os alinhamentos obtidos, b) determina a necessidade de encurtar ou estender genes, c) introduz as correções necessárias, d) faz a previsão de ARNr e ARNt utilizando os programas RNAmmer e tRNA-scan2 e e) determina a existência de eventuais genes não identificados nas regiões intergénicas, através de um BLASTx. Quando comparados os resultados do PGP com os dados produzidos pelo Prodigal utilizando 4 genomas com conteúdo G+C% moderado e 3 com conteúdo em G+C% extremo, o PGP apresentou melhorias de 1% tanto na taxa de erro como na especificidade, exibindo a mesma sensibilidade. Foi observado que para genomas com conteúdos G+C% extremos, o PGP tem mais impacto e portanto realiza mais correções. Os resultados do PGP ainda foram comparados com os pipelines ISGA, xBASE e Consensus Prediction. O PGP melhorou a previsão de genes corretos em 4,4%, comparativamente com ISGA e xBASE e ainda 3,1% em relação à previsão do Consensus Prediction, mantendo uma sensibilidade idêntica entre previsões. No que respeita à deteção de genes na região intergénica verificou-se um acréscimo na ordem de 9 falsos positivos em 12 genomas modelo, necessitando esta vertente de um melhor desenvolvimento. Concluiu-se que o PGP melhora a correta previsão de genes, especialmente em genomas bacterianos com conteúdos G+C% extremos, contribuindo para a anotação automática de genomas bacterianos de elevada qualidade.The correct bacterial gene prediction and annotation is essential for the application of the information contained in DNA in several areas of (bio)medicine, like microbiology, immunology and infection diseases. Although there are several softwares to perform bacterial gene prediction, like GenemarkHMM, Glimmer and Prodigal and also full pipelines as ISGA, xBASE, Maker and Consensus Prediction, gene prediction can be improved. The main objective of this work was the development of a bacterial gene prevision pipeline, the Prokaryote Gene Prediction (PGP) which combines ab initio and homology methods. Since the ab initio software Prodigal showed a better performance relatively to others studied softwares, it was used as the beginning step for the PGP. Taking into account the proteins predicted by Prodigal, the PGP a) analyses the results of the alignment, b) determines if it is necessary to shorten or extend or extension of genes, c) introduces the necessary corrections, d) predictsrRNA and tRNA using the RNAmmer and tRNA-scan2 programs and e) determines possible missing genes in intergenics regions through BLASTx. When comparing the results of PGP with data produced by Prodigal, the PGP showed improvements in both the error rate, and in the specificity, while displaying the same sensitivity. For genomes with extreme G+C% content, the PGP has higher impact and therefore performs more corrections. The results obtained with PGP were also compared with ISGA, xBASE and Consensus Prediction pipelines. The PGP improved the precision of correct genes in 4,4%, comparatively with ISGA and xBASE and 3,1% relative to the prediction of Consensus Prediction, keeping a similar sensibility among predictions. As regards the detection of genes in the intergenic region there was an increase in the range of 9 false positive in 12 model genomes, requiring this part a better development. It was concluded that PGP improves the correct prediction of genes, especially in bacterial genomes with extreme G+C% content, contributing to a high quality in automatic bacterial gene annotation.Mendes, RuiEgas, ConceiçãoUniversidade do MinhoPacheco, José Carlos Ribeiro20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/27894por201193787info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:25:54Zoai:repositorium.sdum.uminho.pt:1822/27894Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:20:12.547278Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv PGP: prokaryote gene prediction software
title PGP: prokaryote gene prediction software
spellingShingle PGP: prokaryote gene prediction software
Pacheco, José Carlos Ribeiro
Ab initio
Bactéria
Genoma
Homologia
Previsão de genes
Sequenciação
Genome
Homology
Gene prediction
Sequencing
681.3:57
57:681.3
title_short PGP: prokaryote gene prediction software
title_full PGP: prokaryote gene prediction software
title_fullStr PGP: prokaryote gene prediction software
title_full_unstemmed PGP: prokaryote gene prediction software
title_sort PGP: prokaryote gene prediction software
author Pacheco, José Carlos Ribeiro
author_facet Pacheco, José Carlos Ribeiro
author_role author
dc.contributor.none.fl_str_mv Mendes, Rui
Egas, Conceição
Universidade do Minho
dc.contributor.author.fl_str_mv Pacheco, José Carlos Ribeiro
dc.subject.por.fl_str_mv Ab initio
Bactéria
Genoma
Homologia
Previsão de genes
Sequenciação
Genome
Homology
Gene prediction
Sequencing
681.3:57
57:681.3
topic Ab initio
Bactéria
Genoma
Homologia
Previsão de genes
Sequenciação
Genome
Homology
Gene prediction
Sequencing
681.3:57
57:681.3
description Dissertação de mestrado em Bioinformática
publishDate 2013
dc.date.none.fl_str_mv 2013
2013-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/27894
url http://hdl.handle.net/1822/27894
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201193787
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132663846535168