Integração de bases de dados de genes homólogos e aplicação em análises de sequências

Detalhes bibliográficos
Autor(a) principal: Gabriel da Rocha Fernandes
Data de Publicação: 2011
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-9PNKJA
Resumo: Bases de dados biológicos são importantes fontes para pesquisas científicas. Algumas bases secundárias agrupam suas proteínas em grupos de ortólogos e categorias funcionais, como as bases COG (Cluster of Ortholog Groups) e KO (KEGG Orthology). A base KO foi usada em um teste de anotação automatizada de ESTs de Caenorhabditis elegans. Conduzimos um experimento controle em que a EST é designada à sua proteína cognata de C. elegans. Para a anotação simulamos um transcriptoma novo removendo as seqüências do verme da base de dados. Obtivemos três classes de anotação: corretas ou trocadas (quando o KO anotado era respectivamente igual ou discordante do designado) e especuladas (quando a EST era anotada, porém não designada). Obtivemos 68%, 4% e 28% de anotações corretas, trocadas e especuladas, respectivamente. Entretanto, as especulações diminuem para 4,4% quando designamos essas ESTs a proteínas que não estão na base KO. Para isso utilizamos proteínas KEGG não classificadas em grupos KO. Na tentativa de aumentar a quantidade de informações em bases de dados como COG e KO, desenvolvemos uma metodologia baseada no recrutamento de seqüências que compartilhem o mesmo grupo UniRef50 de uma proteína recrutadora já existente na base de dados original. Um filtro de seleção de tamanho retirava recrutadas com mais que 10% de diferença de tamanho da recrutadora. Utilizando essa metodologia aumentamos a quantidade de proteínas na base COG de 124.369, provenientes de 63 genomas, para 961.725, com representantes de 3.477 genomas. A base recebeu a denominação UniRef Enriched COG (UECOG). Recentemente um novo enriquecimento foi feito utilizando um filtro em que exigíamos que o alinhamento entre a proteína recrutadora e a recrutada apresentasse valor-e menor que 1x10-10 e cobrisse pelo menos 50% da proteína recrutadora. Com isso obtivemos um total de 2.450.485 entradas, oriundas de 5.748 organismos distintos (UECOG 2.0). O último procedimento foi utilizado para enriquecer a base de dados KO, aumentando as informações contidas de 1.940.617 proteínas para 4.447.538, e o número de organismos presentes de 1.315 para 32.213. A utilização de filtros de significância do alinhamento e de cobertura da seqüência recrutadora mostrou alta acurácia ao separar proteínas semelhantes, mas que possuem grupos de ortólogos distintos. A base enriquecida UEKO (UniRef Enriched KO) foi usada para testar a anotação automatizada de ESTs, como descrito anteriormente. A proporção de anotações trocadas diminuiu para 1% e as corretas aumentaram para 74%. Entretanto, as especulações continuaram freqüentes, mostrando que ainda existe muita informação a ser acrescentada. O número de anotações corretas, todavia, aumentou em 12%. Foram realizados também estudos de metagenomas de microbiota intestinal humana. Um deles, utilizando 13 amostras públicas comparou as anotações proporcionadas pelo KO e UEKO. Essa comparação mostrou que a base UEKO anota mais que KO, já que mais de 100 grupos tem alinhamento exclusivo com a base enriquecida. Entretanto, a grande diferença é de caráter qualitativo, uma vez que há uma melhoria nos escores atribuídos pelo BLAST e as sequências são anotadas por proteínas de clados mais próximos, o que foi demonstrado por análise filogenética. O outro estudo procurou analisar, filogenética e funcionalmente, a estrutura da microbiota e identificamos nas amostras certos padrões filogenéticos e funcionais. Esses grupos, chamados de enterotipos, possuem características que os diferenciam dos demais, como a super-representação em um determinado enterotipo de enzimas envolvidas na síntese de vitaminas, em relação aos demais.
id UFMG_a3cb4d0d0ec78b9b05fa593565f05406
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-9PNKJA
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Jose Miguel OrtegaPeer BorkGloria Regina FrancoDaniella Castanheira BartholomeuSandro José de SouzaMauricio Egidio CantãoGabriel da Rocha Fernandes2019-08-11T08:23:04Z2019-08-11T08:23:04Z2011-03-31http://hdl.handle.net/1843/BUOS-9PNKJABases de dados biológicos são importantes fontes para pesquisas científicas. Algumas bases secundárias agrupam suas proteínas em grupos de ortólogos e categorias funcionais, como as bases COG (Cluster of Ortholog Groups) e KO (KEGG Orthology). A base KO foi usada em um teste de anotação automatizada de ESTs de Caenorhabditis elegans. Conduzimos um experimento controle em que a EST é designada à sua proteína cognata de C. elegans. Para a anotação simulamos um transcriptoma novo removendo as seqüências do verme da base de dados. Obtivemos três classes de anotação: corretas ou trocadas (quando o KO anotado era respectivamente igual ou discordante do designado) e especuladas (quando a EST era anotada, porém não designada). Obtivemos 68%, 4% e 28% de anotações corretas, trocadas e especuladas, respectivamente. Entretanto, as especulações diminuem para 4,4% quando designamos essas ESTs a proteínas que não estão na base KO. Para isso utilizamos proteínas KEGG não classificadas em grupos KO. Na tentativa de aumentar a quantidade de informações em bases de dados como COG e KO, desenvolvemos uma metodologia baseada no recrutamento de seqüências que compartilhem o mesmo grupo UniRef50 de uma proteína recrutadora já existente na base de dados original. Um filtro de seleção de tamanho retirava recrutadas com mais que 10% de diferença de tamanho da recrutadora. Utilizando essa metodologia aumentamos a quantidade de proteínas na base COG de 124.369, provenientes de 63 genomas, para 961.725, com representantes de 3.477 genomas. A base recebeu a denominação UniRef Enriched COG (UECOG). Recentemente um novo enriquecimento foi feito utilizando um filtro em que exigíamos que o alinhamento entre a proteína recrutadora e a recrutada apresentasse valor-e menor que 1x10-10 e cobrisse pelo menos 50% da proteína recrutadora. Com isso obtivemos um total de 2.450.485 entradas, oriundas de 5.748 organismos distintos (UECOG 2.0). O último procedimento foi utilizado para enriquecer a base de dados KO, aumentando as informações contidas de 1.940.617 proteínas para 4.447.538, e o número de organismos presentes de 1.315 para 32.213. A utilização de filtros de significância do alinhamento e de cobertura da seqüência recrutadora mostrou alta acurácia ao separar proteínas semelhantes, mas que possuem grupos de ortólogos distintos. A base enriquecida UEKO (UniRef Enriched KO) foi usada para testar a anotação automatizada de ESTs, como descrito anteriormente. A proporção de anotações trocadas diminuiu para 1% e as corretas aumentaram para 74%. Entretanto, as especulações continuaram freqüentes, mostrando que ainda existe muita informação a ser acrescentada. O número de anotações corretas, todavia, aumentou em 12%. Foram realizados também estudos de metagenomas de microbiota intestinal humana. Um deles, utilizando 13 amostras públicas comparou as anotações proporcionadas pelo KO e UEKO. Essa comparação mostrou que a base UEKO anota mais que KO, já que mais de 100 grupos tem alinhamento exclusivo com a base enriquecida. Entretanto, a grande diferença é de caráter qualitativo, uma vez que há uma melhoria nos escores atribuídos pelo BLAST e as sequências são anotadas por proteínas de clados mais próximos, o que foi demonstrado por análise filogenética. O outro estudo procurou analisar, filogenética e funcionalmente, a estrutura da microbiota e identificamos nas amostras certos padrões filogenéticos e funcionais. Esses grupos, chamados de enterotipos, possuem características que os diferenciam dos demais, como a super-representação em um determinado enterotipo de enzimas envolvidas na síntese de vitaminas, em relação aos demais.Biological databases are very useful sources for scientific research. Some secondary databases organize their data in orthologous groups and functional categories, such as COG (Cluster of Ortholog Groups) and KO (KEGG Orthology). The KO database was used for an automatic annotation test with C. elegans' ESTs. We performed a control experiment on which an EST is designated to its cognate protein in C. elegans. To the annotation stage we simulated a new transcriptome by removing the worms sequences from the database. We obtained three annotation classes: correct or changed (when the annotated KO was equal or different from the designated, respectively) and speculated (when the EST is annotated, but not designated). We obtained 68%, 4% and 28% correct, changed and speculated annotations, respectively. However, the speculation decreases to 4,4% when we designate those EST using proteins that are not included in KO database. Trying to increase the amount of information in databases like COG and KO, we developed a methodology based on recruiting sequences that share the UniRef50 cluster as a recruiter protein that is already present on the original database. A size selection filter removed recruited proteins with a difference higher than 10% the recruiter protein length. Using this methodology we increased the amount of proteins in the COG database from 124.369, from 63 genomes, to 961.725, representing 3.477 genomes. The database was denominated UniRef Enriched COG (UECOG). Recently a new enrichment was performed using a filter which we required that the alignment between the recruited and recruiter proteins showed an valor-e lower than 1x10-10 and cover at least 50% of the recruiter protein. We obtained 2.450.485 entries, from 5.748 distinct genomes (UECOG 2.0). The previous procedure was used to enrich the KO database, increasing the amount of data from 1.940.617 proteins to 4.447.538, and the amount of organisms from 1.315 to 32.213. The usage of alignment significance filter and recruiter sequence coverage showed high accuracy in separating similar proteins, but with different orthologous groups. The enriched database UEKO (UniRef Enriched KO) was used to test the automated annotation of ESTs, as described previously. The proportion of changed annotation decreased to 1% and the correct increased to 74%. However, the speculation remained frequent, showing that we still have a lot of information to be added. The amount of correct annotation increased in 12%. We also performed studies of the human gut microbial metagenome. One of them, using 13 public samples, compared the annotation provided by KO and UEKO. This comparison showed that the UEKO database annotates more sequences than KO, once that more than 100 groups have exclusive alignment with the enriched database. However, the major difference is in qualitative aspect, once that we have an improvement in BLAST scores and proteins from closer clades annotate the sequences, which was demonstrated by phylogenetic analysis. The other study aimed in analyzing, phylogenetic and functionally, the microbiota structure and we identified certain phylogenetic and functional patterns. Those groups, known as enterotypes, have some features that differentiate them from the others, such as the over-representation of enzymes related to vitamin biosynthesis in some enterotype when compared to the others.Universidade Federal de Minas GeraisUFMGMetagenômicaBioinformáticaTranscriptômicaBioinformáticaIntegração de bases de dados de genes homólogos e aplicação em análises de sequênciasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesegabrielfernandes.pdfapplication/pdf15198212https://repositorio.ufmg.br/bitstream/1843/BUOS-9PNKJA/1/tesegabrielfernandes.pdfb06442ee35aea42beaf7c445e2abba2dMD51TEXTtesegabrielfernandes.pdf.txttesegabrielfernandes.pdf.txtExtracted texttext/plain332567https://repositorio.ufmg.br/bitstream/1843/BUOS-9PNKJA/2/tesegabrielfernandes.pdf.txt987bf54d51090a56392cf7d07ebb7a06MD521843/BUOS-9PNKJA2019-11-14 10:02:53.138oai:repositorio.ufmg.br:1843/BUOS-9PNKJARepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T13:02:53Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Integração de bases de dados de genes homólogos e aplicação em análises de sequências
title Integração de bases de dados de genes homólogos e aplicação em análises de sequências
spellingShingle Integração de bases de dados de genes homólogos e aplicação em análises de sequências
Gabriel da Rocha Fernandes
Bioinformática
Metagenômica
Bioinformática
Transcriptômica
title_short Integração de bases de dados de genes homólogos e aplicação em análises de sequências
title_full Integração de bases de dados de genes homólogos e aplicação em análises de sequências
title_fullStr Integração de bases de dados de genes homólogos e aplicação em análises de sequências
title_full_unstemmed Integração de bases de dados de genes homólogos e aplicação em análises de sequências
title_sort Integração de bases de dados de genes homólogos e aplicação em análises de sequências
author Gabriel da Rocha Fernandes
author_facet Gabriel da Rocha Fernandes
author_role author
dc.contributor.advisor1.fl_str_mv Jose Miguel Ortega
dc.contributor.referee1.fl_str_mv Peer Bork
dc.contributor.referee2.fl_str_mv Gloria Regina Franco
dc.contributor.referee3.fl_str_mv Daniella Castanheira Bartholomeu
dc.contributor.referee4.fl_str_mv Sandro José de Souza
dc.contributor.referee5.fl_str_mv Mauricio Egidio Cantão
dc.contributor.author.fl_str_mv Gabriel da Rocha Fernandes
contributor_str_mv Jose Miguel Ortega
Peer Bork
Gloria Regina Franco
Daniella Castanheira Bartholomeu
Sandro José de Souza
Mauricio Egidio Cantão
dc.subject.por.fl_str_mv Bioinformática
topic Bioinformática
Metagenômica
Bioinformática
Transcriptômica
dc.subject.other.pt_BR.fl_str_mv Metagenômica
Bioinformática
Transcriptômica
description Bases de dados biológicos são importantes fontes para pesquisas científicas. Algumas bases secundárias agrupam suas proteínas em grupos de ortólogos e categorias funcionais, como as bases COG (Cluster of Ortholog Groups) e KO (KEGG Orthology). A base KO foi usada em um teste de anotação automatizada de ESTs de Caenorhabditis elegans. Conduzimos um experimento controle em que a EST é designada à sua proteína cognata de C. elegans. Para a anotação simulamos um transcriptoma novo removendo as seqüências do verme da base de dados. Obtivemos três classes de anotação: corretas ou trocadas (quando o KO anotado era respectivamente igual ou discordante do designado) e especuladas (quando a EST era anotada, porém não designada). Obtivemos 68%, 4% e 28% de anotações corretas, trocadas e especuladas, respectivamente. Entretanto, as especulações diminuem para 4,4% quando designamos essas ESTs a proteínas que não estão na base KO. Para isso utilizamos proteínas KEGG não classificadas em grupos KO. Na tentativa de aumentar a quantidade de informações em bases de dados como COG e KO, desenvolvemos uma metodologia baseada no recrutamento de seqüências que compartilhem o mesmo grupo UniRef50 de uma proteína recrutadora já existente na base de dados original. Um filtro de seleção de tamanho retirava recrutadas com mais que 10% de diferença de tamanho da recrutadora. Utilizando essa metodologia aumentamos a quantidade de proteínas na base COG de 124.369, provenientes de 63 genomas, para 961.725, com representantes de 3.477 genomas. A base recebeu a denominação UniRef Enriched COG (UECOG). Recentemente um novo enriquecimento foi feito utilizando um filtro em que exigíamos que o alinhamento entre a proteína recrutadora e a recrutada apresentasse valor-e menor que 1x10-10 e cobrisse pelo menos 50% da proteína recrutadora. Com isso obtivemos um total de 2.450.485 entradas, oriundas de 5.748 organismos distintos (UECOG 2.0). O último procedimento foi utilizado para enriquecer a base de dados KO, aumentando as informações contidas de 1.940.617 proteínas para 4.447.538, e o número de organismos presentes de 1.315 para 32.213. A utilização de filtros de significância do alinhamento e de cobertura da seqüência recrutadora mostrou alta acurácia ao separar proteínas semelhantes, mas que possuem grupos de ortólogos distintos. A base enriquecida UEKO (UniRef Enriched KO) foi usada para testar a anotação automatizada de ESTs, como descrito anteriormente. A proporção de anotações trocadas diminuiu para 1% e as corretas aumentaram para 74%. Entretanto, as especulações continuaram freqüentes, mostrando que ainda existe muita informação a ser acrescentada. O número de anotações corretas, todavia, aumentou em 12%. Foram realizados também estudos de metagenomas de microbiota intestinal humana. Um deles, utilizando 13 amostras públicas comparou as anotações proporcionadas pelo KO e UEKO. Essa comparação mostrou que a base UEKO anota mais que KO, já que mais de 100 grupos tem alinhamento exclusivo com a base enriquecida. Entretanto, a grande diferença é de caráter qualitativo, uma vez que há uma melhoria nos escores atribuídos pelo BLAST e as sequências são anotadas por proteínas de clados mais próximos, o que foi demonstrado por análise filogenética. O outro estudo procurou analisar, filogenética e funcionalmente, a estrutura da microbiota e identificamos nas amostras certos padrões filogenéticos e funcionais. Esses grupos, chamados de enterotipos, possuem características que os diferenciam dos demais, como a super-representação em um determinado enterotipo de enzimas envolvidas na síntese de vitaminas, em relação aos demais.
publishDate 2011
dc.date.issued.fl_str_mv 2011-03-31
dc.date.accessioned.fl_str_mv 2019-08-11T08:23:04Z
dc.date.available.fl_str_mv 2019-08-11T08:23:04Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-9PNKJA
url http://hdl.handle.net/1843/BUOS-9PNKJA
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-9PNKJA/1/tesegabrielfernandes.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-9PNKJA/2/tesegabrielfernandes.pdf.txt
bitstream.checksum.fl_str_mv b06442ee35aea42beaf7c445e2abba2d
987bf54d51090a56392cf7d07ebb7a06
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589396408041472