PGP: prokaryote gene prediction software
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/27894 |
Resumo: | Dissertação de mestrado em Bioinformática |
id |
RCAP_d73e86502ca23c605b3e3337cfdf4b83 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/27894 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
PGP: prokaryote gene prediction softwareAb initioBactériaGenomaHomologiaPrevisão de genesSequenciaçãoGenomeHomologyGene predictionSequencing681.3:5757:681.3Dissertação de mestrado em BioinformáticaA correta previsão e anotação de genes bacterianos é essencial para a aplicação da informação contida no ADN em muitos tópicos de pesquisa (bio)médica, como microbiologia, imunologia e doenças infeciosas. Embora existam vários softwares de previsão de genes bacterianos como GenemarkHMM, Glimmer e Prodigal e pipelines completos como ISGA, xBASE, Maker e Consensus Prediction, a previsão de genes pode ser melhorada. O principal objetivo deste trabalho foi o desenvolvimento de um pipeline de previsão de genes bacterianos, o Prokaryote Gene Prediction (PGP), que combina métodos de ab initio e de homologia. Uma vez que o software ab initio Prodigal mostrou um melhor desempenho relativamente a outros softwares estudados, foi usado como o passo inicial para o PGP. Considerando as proteínas previstas pelo Prodigal, o PGP a) analisa os alinhamentos obtidos, b) determina a necessidade de encurtar ou estender genes, c) introduz as correções necessárias, d) faz a previsão de ARNr e ARNt utilizando os programas RNAmmer e tRNA-scan2 e e) determina a existência de eventuais genes não identificados nas regiões intergénicas, através de um BLASTx. Quando comparados os resultados do PGP com os dados produzidos pelo Prodigal utilizando 4 genomas com conteúdo G+C% moderado e 3 com conteúdo em G+C% extremo, o PGP apresentou melhorias de 1% tanto na taxa de erro como na especificidade, exibindo a mesma sensibilidade. Foi observado que para genomas com conteúdos G+C% extremos, o PGP tem mais impacto e portanto realiza mais correções. Os resultados do PGP ainda foram comparados com os pipelines ISGA, xBASE e Consensus Prediction. O PGP melhorou a previsão de genes corretos em 4,4%, comparativamente com ISGA e xBASE e ainda 3,1% em relação à previsão do Consensus Prediction, mantendo uma sensibilidade idêntica entre previsões. No que respeita à deteção de genes na região intergénica verificou-se um acréscimo na ordem de 9 falsos positivos em 12 genomas modelo, necessitando esta vertente de um melhor desenvolvimento. Concluiu-se que o PGP melhora a correta previsão de genes, especialmente em genomas bacterianos com conteúdos G+C% extremos, contribuindo para a anotação automática de genomas bacterianos de elevada qualidade.The correct bacterial gene prediction and annotation is essential for the application of the information contained in DNA in several areas of (bio)medicine, like microbiology, immunology and infection diseases. Although there are several softwares to perform bacterial gene prediction, like GenemarkHMM, Glimmer and Prodigal and also full pipelines as ISGA, xBASE, Maker and Consensus Prediction, gene prediction can be improved. The main objective of this work was the development of a bacterial gene prevision pipeline, the Prokaryote Gene Prediction (PGP) which combines ab initio and homology methods. Since the ab initio software Prodigal showed a better performance relatively to others studied softwares, it was used as the beginning step for the PGP. Taking into account the proteins predicted by Prodigal, the PGP a) analyses the results of the alignment, b) determines if it is necessary to shorten or extend or extension of genes, c) introduces the necessary corrections, d) predictsrRNA and tRNA using the RNAmmer and tRNA-scan2 programs and e) determines possible missing genes in intergenics regions through BLASTx. When comparing the results of PGP with data produced by Prodigal, the PGP showed improvements in both the error rate, and in the specificity, while displaying the same sensitivity. For genomes with extreme G+C% content, the PGP has higher impact and therefore performs more corrections. The results obtained with PGP were also compared with ISGA, xBASE and Consensus Prediction pipelines. The PGP improved the precision of correct genes in 4,4%, comparatively with ISGA and xBASE and 3,1% relative to the prediction of Consensus Prediction, keeping a similar sensibility among predictions. As regards the detection of genes in the intergenic region there was an increase in the range of 9 false positive in 12 model genomes, requiring this part a better development. It was concluded that PGP improves the correct prediction of genes, especially in bacterial genomes with extreme G+C% content, contributing to a high quality in automatic bacterial gene annotation.Mendes, RuiEgas, ConceiçãoUniversidade do MinhoPacheco, José Carlos Ribeiro20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/27894por201193787info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:25:54Zoai:repositorium.sdum.uminho.pt:1822/27894Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:20:12.547278Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
PGP: prokaryote gene prediction software |
title |
PGP: prokaryote gene prediction software |
spellingShingle |
PGP: prokaryote gene prediction software Pacheco, José Carlos Ribeiro Ab initio Bactéria Genoma Homologia Previsão de genes Sequenciação Genome Homology Gene prediction Sequencing 681.3:57 57:681.3 |
title_short |
PGP: prokaryote gene prediction software |
title_full |
PGP: prokaryote gene prediction software |
title_fullStr |
PGP: prokaryote gene prediction software |
title_full_unstemmed |
PGP: prokaryote gene prediction software |
title_sort |
PGP: prokaryote gene prediction software |
author |
Pacheco, José Carlos Ribeiro |
author_facet |
Pacheco, José Carlos Ribeiro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Mendes, Rui Egas, Conceição Universidade do Minho |
dc.contributor.author.fl_str_mv |
Pacheco, José Carlos Ribeiro |
dc.subject.por.fl_str_mv |
Ab initio Bactéria Genoma Homologia Previsão de genes Sequenciação Genome Homology Gene prediction Sequencing 681.3:57 57:681.3 |
topic |
Ab initio Bactéria Genoma Homologia Previsão de genes Sequenciação Genome Homology Gene prediction Sequencing 681.3:57 57:681.3 |
description |
Dissertação de mestrado em Bioinformática |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013 2013-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/27894 |
url |
http://hdl.handle.net/1822/27894 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
201193787 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132663846535168 |