GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/95/95131/tde-02032020-102628/ |
Resumo: | As pesquisas no campo da genômica produzem uma grande quantidade de dados. Entretanto, o conhecimento genético acerca de certos fenótipos é limitado. Além disso, parte considerável dos genomas estudados possuem sequências codificantes (CDSs) com funções desconhecidas, representando um desafio adicional para a compreensão dos pesquisadores. Organismos provenientes de um mesmo ramo evolutivo compartilham muitas de suas CDSs, e certos fenótipos únicos a um grupo desses indivíduos podem ser resultado de um conjunto único de genes exclusivos. Neste trabalho é apresentado o arcabouço computacional GTACG, uma ferramenta com foco em uma usabilidade facilitada e destinada a pesquisas para identificação de características genéticas únicas em subgrupos de genomas de bactérias que possuem um determinado fenótipo em comum, encontrando dados que diferenciam eles dos outros organismos de forma simples. A análise do GTACG é baseada na formação de grupos de CDSs homólogas com base em alinhamentos locais. O front-end é simples de usar e a instalação de pacotes foi projetada para que usuários com pouco conhecimento em computação possam fazer análises complexas usando esta ferramenta. A validação dos resultados do GTACG se baseou em dois estudos de caso envolvendo um conjunto com 161 genomas da família Xanthomonadaceae e 45 genomas de Streptococcus pyogenes. No primeiro estudo de caso, buscava-se descobrir porque algumas Xanthomonadaceae se associam a plantas e outras não, e de fato foram encontradas 19 famílias de proteínas ortólogas exclusivas aos genomas associados a plantas (representando mais de 90% desses genomas), permitindo a identificação de proteínas potencialmente associadas com a adaptação e a virulência dessas bactérias nos tecidos das plantas. No segundo estudo, buscou-se encontrar marcadores filogenéticos para a proteína emm dos Streptococcus pyogenes, e foram encontrados 15 famílias de proteínas ortólogas que serviriam para este papel. Além disso, também foram encontrados algumas famílias combinadas que poderiam explicar parte das doenças causadas pelo Streptococcus pyogenes em seres humanos. Os resultados mostram o potencial de uso do GTACG para encontrar novos objetos de pesquisa para estudos moleculares de genômica comparativa de bactérias. |
id |
USP_f6246dc76473b5a1351e4dd7bde7e155 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-02032020-102628 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivoGTACG: a computational framework focused on comparative genomics of bacteria from the same evolutionary branchAgrupamento de sequênciasAnálise de pan-genomasBioinformáticaBioinformaticsComparative genomicsFatores de virulênciaFilogenômicaFilogenomicsGenômica comparativaIdentificação de famílias multidomínioMulti-domain identificationPan-genome analysisSequence clusteringVirulence factorsAs pesquisas no campo da genômica produzem uma grande quantidade de dados. Entretanto, o conhecimento genético acerca de certos fenótipos é limitado. Além disso, parte considerável dos genomas estudados possuem sequências codificantes (CDSs) com funções desconhecidas, representando um desafio adicional para a compreensão dos pesquisadores. Organismos provenientes de um mesmo ramo evolutivo compartilham muitas de suas CDSs, e certos fenótipos únicos a um grupo desses indivíduos podem ser resultado de um conjunto único de genes exclusivos. Neste trabalho é apresentado o arcabouço computacional GTACG, uma ferramenta com foco em uma usabilidade facilitada e destinada a pesquisas para identificação de características genéticas únicas em subgrupos de genomas de bactérias que possuem um determinado fenótipo em comum, encontrando dados que diferenciam eles dos outros organismos de forma simples. A análise do GTACG é baseada na formação de grupos de CDSs homólogas com base em alinhamentos locais. O front-end é simples de usar e a instalação de pacotes foi projetada para que usuários com pouco conhecimento em computação possam fazer análises complexas usando esta ferramenta. A validação dos resultados do GTACG se baseou em dois estudos de caso envolvendo um conjunto com 161 genomas da família Xanthomonadaceae e 45 genomas de Streptococcus pyogenes. No primeiro estudo de caso, buscava-se descobrir porque algumas Xanthomonadaceae se associam a plantas e outras não, e de fato foram encontradas 19 famílias de proteínas ortólogas exclusivas aos genomas associados a plantas (representando mais de 90% desses genomas), permitindo a identificação de proteínas potencialmente associadas com a adaptação e a virulência dessas bactérias nos tecidos das plantas. No segundo estudo, buscou-se encontrar marcadores filogenéticos para a proteína emm dos Streptococcus pyogenes, e foram encontrados 15 famílias de proteínas ortólogas que serviriam para este papel. Além disso, também foram encontrados algumas famílias combinadas que poderiam explicar parte das doenças causadas pelo Streptococcus pyogenes em seres humanos. Os resultados mostram o potencial de uso do GTACG para encontrar novos objetos de pesquisa para estudos moleculares de genômica comparativa de bactérias.Research in the field of genomics produces a large amount of data. However, genetic knowledge about certain phenotypes is limited. Besides, a considerable part of the studied genomes has coding sequences (CDSs) with unknown functions, representing an additional challenge for researchers. Organisms from the same evolutionary branch share many of their CDSs, and certain phenotypes specific to a group of these individuals may be the result of a unique set of unique genes. In this work the GTACG computational framework is presented, a user-friendly tool to help researches to identify unique genetic characteristics in subgroups of bacterial genomes that have a common phenotype, finding data that differentiate them from other organisms in a simple way. GTACG analysis is based on the formation of homologous CDS groups based on local alignments. The front end is simple to use, and the package installation is designed to allow users with little knowledge of computer science can do complex analysis using this tool. The validation of the GTACG results was based on two case studies involving a set of 161 genomes of the Xanthomonadaceae family and 45 Streptococcus pyogenes genomes. In the first case study, we attempted to find out why some Xanthomonadaceae are associated with plants and others not, and, in fact, 19 families of orthologous proteins unique to plant-associated genomes were found (representing over 90% of these genomes), allowing the identification of proteins potentially associated with the adaptation and virulence of these bacteria in plant tissues. In the second study, we attempted to find phylogenetic markers for the protein emm of Streptococcus pyogenes, and found 15 families of orthologous proteins that would play this role. In addition, some combined families were also found that could explain some of the diseases caused by Streptococcus pyogenes in humans. The results show the potential use of GTACG to find new research objects for molecular studies of bacterial comparative genomics.Biblioteca Digitais de Teses e Dissertações da USPDigiampietri, Luciano AntonioMoreira, Leandro MarcioSantiago, Caio Rafael do Nascimento2019-10-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-02032020-102628/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-05-27T06:12:43Zoai:teses.usp.br:tde-02032020-102628Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-05-27T06:12:43Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo GTACG: a computational framework focused on comparative genomics of bacteria from the same evolutionary branch |
title |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
spellingShingle |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo Santiago, Caio Rafael do Nascimento Agrupamento de sequências Análise de pan-genomas Bioinformática Bioinformatics Comparative genomics Fatores de virulência Filogenômica Filogenomics Genômica comparativa Identificação de famílias multidomínio Multi-domain identification Pan-genome analysis Sequence clustering Virulence factors |
title_short |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
title_full |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
title_fullStr |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
title_full_unstemmed |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
title_sort |
GTACG: um arcabouço computacional focado em genômica comparativa de bactérias de um mesmo ramo evolutivo |
author |
Santiago, Caio Rafael do Nascimento |
author_facet |
Santiago, Caio Rafael do Nascimento |
author_role |
author |
dc.contributor.none.fl_str_mv |
Digiampietri, Luciano Antonio Moreira, Leandro Marcio |
dc.contributor.author.fl_str_mv |
Santiago, Caio Rafael do Nascimento |
dc.subject.por.fl_str_mv |
Agrupamento de sequências Análise de pan-genomas Bioinformática Bioinformatics Comparative genomics Fatores de virulência Filogenômica Filogenomics Genômica comparativa Identificação de famílias multidomínio Multi-domain identification Pan-genome analysis Sequence clustering Virulence factors |
topic |
Agrupamento de sequências Análise de pan-genomas Bioinformática Bioinformatics Comparative genomics Fatores de virulência Filogenômica Filogenomics Genômica comparativa Identificação de famílias multidomínio Multi-domain identification Pan-genome analysis Sequence clustering Virulence factors |
description |
As pesquisas no campo da genômica produzem uma grande quantidade de dados. Entretanto, o conhecimento genético acerca de certos fenótipos é limitado. Além disso, parte considerável dos genomas estudados possuem sequências codificantes (CDSs) com funções desconhecidas, representando um desafio adicional para a compreensão dos pesquisadores. Organismos provenientes de um mesmo ramo evolutivo compartilham muitas de suas CDSs, e certos fenótipos únicos a um grupo desses indivíduos podem ser resultado de um conjunto único de genes exclusivos. Neste trabalho é apresentado o arcabouço computacional GTACG, uma ferramenta com foco em uma usabilidade facilitada e destinada a pesquisas para identificação de características genéticas únicas em subgrupos de genomas de bactérias que possuem um determinado fenótipo em comum, encontrando dados que diferenciam eles dos outros organismos de forma simples. A análise do GTACG é baseada na formação de grupos de CDSs homólogas com base em alinhamentos locais. O front-end é simples de usar e a instalação de pacotes foi projetada para que usuários com pouco conhecimento em computação possam fazer análises complexas usando esta ferramenta. A validação dos resultados do GTACG se baseou em dois estudos de caso envolvendo um conjunto com 161 genomas da família Xanthomonadaceae e 45 genomas de Streptococcus pyogenes. No primeiro estudo de caso, buscava-se descobrir porque algumas Xanthomonadaceae se associam a plantas e outras não, e de fato foram encontradas 19 famílias de proteínas ortólogas exclusivas aos genomas associados a plantas (representando mais de 90% desses genomas), permitindo a identificação de proteínas potencialmente associadas com a adaptação e a virulência dessas bactérias nos tecidos das plantas. No segundo estudo, buscou-se encontrar marcadores filogenéticos para a proteína emm dos Streptococcus pyogenes, e foram encontrados 15 famílias de proteínas ortólogas que serviriam para este papel. Além disso, também foram encontrados algumas famílias combinadas que poderiam explicar parte das doenças causadas pelo Streptococcus pyogenes em seres humanos. Os resultados mostram o potencial de uso do GTACG para encontrar novos objetos de pesquisa para estudos moleculares de genômica comparativa de bactérias. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-10-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-02032020-102628/ |
url |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-02032020-102628/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256601186009088 |