Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/95/95131/tde-28082015-222248/ |
Resumo: | Modelos ocultos de Markov (HMMs - hidden Markov models) são ferramentas essenciais para anotação automática de proteínas. Por muitos anos, bancos de dados de famílias de proteínas baseados em HMMs têm sido disponibilizados para a comunidade científica (e.g. TIGRfams). Muitos esforços também têm sido dedicados à geração automática de HMMs de famílias de proteínas (e.g. PANTHER). No entanto, HMMs manualmente curados de famílias de proteínas permanecem como o padrão-ouro para anotação de genomas. Neste contexto, este trabalho teve como principal objetivo a geração de cerca de 80 famílias de proteínas microbianas relevantes para produção de bioenergia, baseadas em HMMs. Para gerar os HMMs, seguimos um protocolo de curadoria manual, gerado neste trabalho. Partimos de uma proteína que tenha função experimentalmente comprovada, esteja associada a uma publicação e tenha sido manualmente anotada com termos da Gene Ontology, criados pelo projeto MENGO¹ (Microbial ENergy Gene Ontology). Os próximos passos consistiram na (1) definição de um critério de seleção para inclusão de membros à família; (2) busca por membros via BLAST; (3) geração do alinhamento múltiplo (MUSCLE 3.7) e do HMM (HMMER 3.0); (4) análise dos resultados e iteração do processo, com o HMM preliminar usado nas buscas adicionais; (5) definição de uma nota de corte (cutoff) para o HMM final; (6) validação individual dos modelos. As principais contribuições deste trabalho são 74 HMMs (manualmente curados) disponibilizados via web (http://mengofams.lbi.iq.usp.br/), onde é possível fazer buscas e o download dos modelos, um protocolo detalhado sobre a curadoria manual de HMMs para famílias de proteínas e uma lista com proteínas candidatas a reanotação. |
id |
USP_a0bffbdcba3ae597f0b17a20cc657804 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-28082015-222248 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergiaComputational modeling of microbial protein families relevants to bioenergy production process.AnnotationAnotaçãoBiocuradoriaBiocurationBioenergiaBioenergyGene OntologyGene OntologyHMMHMMModelos ocultos de Markov (HMMs - hidden Markov models) são ferramentas essenciais para anotação automática de proteínas. Por muitos anos, bancos de dados de famílias de proteínas baseados em HMMs têm sido disponibilizados para a comunidade científica (e.g. TIGRfams). Muitos esforços também têm sido dedicados à geração automática de HMMs de famílias de proteínas (e.g. PANTHER). No entanto, HMMs manualmente curados de famílias de proteínas permanecem como o padrão-ouro para anotação de genomas. Neste contexto, este trabalho teve como principal objetivo a geração de cerca de 80 famílias de proteínas microbianas relevantes para produção de bioenergia, baseadas em HMMs. Para gerar os HMMs, seguimos um protocolo de curadoria manual, gerado neste trabalho. Partimos de uma proteína que tenha função experimentalmente comprovada, esteja associada a uma publicação e tenha sido manualmente anotada com termos da Gene Ontology, criados pelo projeto MENGO¹ (Microbial ENergy Gene Ontology). Os próximos passos consistiram na (1) definição de um critério de seleção para inclusão de membros à família; (2) busca por membros via BLAST; (3) geração do alinhamento múltiplo (MUSCLE 3.7) e do HMM (HMMER 3.0); (4) análise dos resultados e iteração do processo, com o HMM preliminar usado nas buscas adicionais; (5) definição de uma nota de corte (cutoff) para o HMM final; (6) validação individual dos modelos. As principais contribuições deste trabalho são 74 HMMs (manualmente curados) disponibilizados via web (http://mengofams.lbi.iq.usp.br/), onde é possível fazer buscas e o download dos modelos, um protocolo detalhado sobre a curadoria manual de HMMs para famílias de proteínas e uma lista com proteínas candidatas a reanotação.Hidden Markov Models (HMMs) are essential tools for automated annotation of protein sequences. For many years now protein family resources based on HMMs have been made available to the scientific community (e.g. TIGRfams). Much effort has also been devoted to the automated generation of protein family HMMs (e.g Panther). However, manually curated protein family HMMs remain the gold standard for use in genome annotation. In this context, this work had as main objectives the generation of appoximately 80 protein families based on HMMs. We follow a standard protocol, that was generated in this work, to create the HMMs. At first, we start from a protein with experimentally proven function, associated to a publication and that was manually annotated with new terms from Gene Ontology provided by MENGO¹ (Microbial ENergy Gene Ontology). The next steps consists of (1) definition of selection criteria to capture members of the family; (2) search for members via BLAST; (3) generation of multiple alignment (MUSCLE 3.7) and the HMM (HMMER 3.0); (4) result analysis and iteration of the process, using the preliminary HMM; (5) cutoff definition to the final HMM; (6) individual validation of the models using tests against NCBIs NR database. The main deliverables of this work are 74 HMMs manually curated available in the site project (mengofams.lbi.iq.usp.br) that allows browsing and download of all HMMs curated so far, a standard protocol manual curation of protein families, a list with proteins that need to be reviewed.Biblioteca Digitais de Teses e Dissertações da USPSetubal, João CarlosRego, Fernanda Orpinelli Ramos do2015-08-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/95/95131/tde-28082015-222248/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:11:57Zoai:teses.usp.br:tde-28082015-222248Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:11:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia Computational modeling of microbial protein families relevants to bioenergy production process. |
title |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
spellingShingle |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia Rego, Fernanda Orpinelli Ramos do Annotation Anotação Biocuradoria Biocuration Bioenergia Bioenergy Gene Ontology Gene Ontology HMM HMM |
title_short |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
title_full |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
title_fullStr |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
title_full_unstemmed |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
title_sort |
Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia |
author |
Rego, Fernanda Orpinelli Ramos do |
author_facet |
Rego, Fernanda Orpinelli Ramos do |
author_role |
author |
dc.contributor.none.fl_str_mv |
Setubal, João Carlos |
dc.contributor.author.fl_str_mv |
Rego, Fernanda Orpinelli Ramos do |
dc.subject.por.fl_str_mv |
Annotation Anotação Biocuradoria Biocuration Bioenergia Bioenergy Gene Ontology Gene Ontology HMM HMM |
topic |
Annotation Anotação Biocuradoria Biocuration Bioenergia Bioenergy Gene Ontology Gene Ontology HMM HMM |
description |
Modelos ocultos de Markov (HMMs - hidden Markov models) são ferramentas essenciais para anotação automática de proteínas. Por muitos anos, bancos de dados de famílias de proteínas baseados em HMMs têm sido disponibilizados para a comunidade científica (e.g. TIGRfams). Muitos esforços também têm sido dedicados à geração automática de HMMs de famílias de proteínas (e.g. PANTHER). No entanto, HMMs manualmente curados de famílias de proteínas permanecem como o padrão-ouro para anotação de genomas. Neste contexto, este trabalho teve como principal objetivo a geração de cerca de 80 famílias de proteínas microbianas relevantes para produção de bioenergia, baseadas em HMMs. Para gerar os HMMs, seguimos um protocolo de curadoria manual, gerado neste trabalho. Partimos de uma proteína que tenha função experimentalmente comprovada, esteja associada a uma publicação e tenha sido manualmente anotada com termos da Gene Ontology, criados pelo projeto MENGO¹ (Microbial ENergy Gene Ontology). Os próximos passos consistiram na (1) definição de um critério de seleção para inclusão de membros à família; (2) busca por membros via BLAST; (3) geração do alinhamento múltiplo (MUSCLE 3.7) e do HMM (HMMER 3.0); (4) análise dos resultados e iteração do processo, com o HMM preliminar usado nas buscas adicionais; (5) definição de uma nota de corte (cutoff) para o HMM final; (6) validação individual dos modelos. As principais contribuições deste trabalho são 74 HMMs (manualmente curados) disponibilizados via web (http://mengofams.lbi.iq.usp.br/), onde é possível fazer buscas e o download dos modelos, um protocolo detalhado sobre a curadoria manual de HMMs para famílias de proteínas e uma lista com proteínas candidatas a reanotação. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-08-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/95/95131/tde-28082015-222248/ |
url |
http://www.teses.usp.br/teses/disponiveis/95/95131/tde-28082015-222248/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257439579144192 |