Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus

Detalhes bibliográficos
Autor(a) principal: Guimarães, Miriã Nunes
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/95/95131/tde-24042019-115926/
Resumo: Os vírus são as entidades biológicas mais abundantes encontradas na natureza. O método clássico de estudo dos vírus requerem seu isolamento e propagação in vitro. Contudo, necessita-se ter um conhecimento prévio sobre as condições necessárias para seu cultivo em células, sendo assim a maior parte dos vírus existentes não é conhecida. Análises metagenômicas são uma alternativa para a detecção e caracterização de novos vírus, uma vez que não requerem um cultivo prévio e as amostras podem conter material genético de múltiplos organismos. Uma vez obtidas as sequências montadas a partir das leituras metagenômicas, o método mais utilizado para a identificação e classificação dos organismos é a busca de similaridade com o programa BLAST contra bancos de sequências conhecidas. Contudo, métodos de alinhamento pareado são capazes de identificar apenas sequências com identidade superior a 20-30%. Uma alternativa a essa limitação é o uso de métodos baseados no uso de perfis, que podem aumentar a sensibilidade de detecção de homólogos filogeneticamente distantes. HMMs de perfil são modelos probabilísticos capazes de representar a diversidade de caracteres em posições-específicas de um alinhamento de múltiplas sequências. Nosso grupo desenvolveu a ferramenta TABAJARA, utilizada neste projeto, para a identificação de blocos que podem ser conservados em todas as sequências do alinhamento ou discriminativos entre grupos de sequências. Esses blocos são utilizados para a geração de HMMs de perfil, os quais podem ser usados, no contexto da virologia, para a identificação de grupos taxonômicos amplos como famílias virais ou, ainda, taxa mais restritos como gêneros ou mesmo espécies de vírus. O presente projeto teve como objetivos aplicar e otimizar o programa TABAJARA em diferentes grupos taxonômicos de vírus, construir modelos específicos para cada um desses grupos e validar esses modelos em dados metagenômicos. O primeiro modelo de estudo escolhido foi a ordem Bunyavirales, composta de vírus de ssRNA (-) majoritariamente envelopados e esféricos, com genoma segmentado e pertencentes ao grupo 5 da classificação de Baltimore. Este grupo inclui vírus causadores de várias doenças em humanos, animais e plantas. O segundo modelo de estudo escolhido foi a família Togaviridae, composta de vírus de ssRNA (+) envelopados e esféricos, cujo genoma expressa uma poliproteína e pertencem ao grupo 4 da classificação de Baltimore. Este grupo inclui o vírus Chikungunya e outras espécies que causam diversas patologias ao homem. O terceiro modelo de estudo escolhido foi a subfamília Spounavirinae, compreendendo bacteriófagos que infectam vários hospedeiros bacterianos e em alguns casos possuem potencial terapêutico comprovado contra infecções bacterianas que afetam o homem. Estes fagos apresentam partículas virais com estrutura cabeça-cauda, não são envelopados, apresentam genoma de dsDNA e pertencem ao grupo 1 da classificação de Baltimore. Todos os modelos construídos foram validados quanto à sensibilidade e especificidade de detecção e, ao final, foram utilizados em análises de prospecção de vírus em dados metagenômicos obtidos na base SRA do NCBI. Os HMMs de perfil apresentaram excelente desempenho, comprovando a viabilidade da metodologia proposta neste projeto. Os resultados apresentados neste trabalho abrem a perspectiva da ampla utilização de HMMs de perfil como ferramentas universais para a detecção e classificação de vírus em dados metagenômicos.
id USP_6a9c2a667819874edabf70665f76319f
oai_identifier_str oai:teses.usp.br:tde-24042019-115926
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Construção e aplicação de HMMs de perfil para a detecção e classificação de vírusConstruction and application of profile HMMs for the specific detection and classification of virusesBioinformáticaGenomasHidden Markov modelsMarcador molecularMetagenomicsModelos para processos estocásticosMolecular markersProfile HMMsViral taxonomyVírusVirus detectionOs vírus são as entidades biológicas mais abundantes encontradas na natureza. O método clássico de estudo dos vírus requerem seu isolamento e propagação in vitro. Contudo, necessita-se ter um conhecimento prévio sobre as condições necessárias para seu cultivo em células, sendo assim a maior parte dos vírus existentes não é conhecida. Análises metagenômicas são uma alternativa para a detecção e caracterização de novos vírus, uma vez que não requerem um cultivo prévio e as amostras podem conter material genético de múltiplos organismos. Uma vez obtidas as sequências montadas a partir das leituras metagenômicas, o método mais utilizado para a identificação e classificação dos organismos é a busca de similaridade com o programa BLAST contra bancos de sequências conhecidas. Contudo, métodos de alinhamento pareado são capazes de identificar apenas sequências com identidade superior a 20-30%. Uma alternativa a essa limitação é o uso de métodos baseados no uso de perfis, que podem aumentar a sensibilidade de detecção de homólogos filogeneticamente distantes. HMMs de perfil são modelos probabilísticos capazes de representar a diversidade de caracteres em posições-específicas de um alinhamento de múltiplas sequências. Nosso grupo desenvolveu a ferramenta TABAJARA, utilizada neste projeto, para a identificação de blocos que podem ser conservados em todas as sequências do alinhamento ou discriminativos entre grupos de sequências. Esses blocos são utilizados para a geração de HMMs de perfil, os quais podem ser usados, no contexto da virologia, para a identificação de grupos taxonômicos amplos como famílias virais ou, ainda, taxa mais restritos como gêneros ou mesmo espécies de vírus. O presente projeto teve como objetivos aplicar e otimizar o programa TABAJARA em diferentes grupos taxonômicos de vírus, construir modelos específicos para cada um desses grupos e validar esses modelos em dados metagenômicos. O primeiro modelo de estudo escolhido foi a ordem Bunyavirales, composta de vírus de ssRNA (-) majoritariamente envelopados e esféricos, com genoma segmentado e pertencentes ao grupo 5 da classificação de Baltimore. Este grupo inclui vírus causadores de várias doenças em humanos, animais e plantas. O segundo modelo de estudo escolhido foi a família Togaviridae, composta de vírus de ssRNA (+) envelopados e esféricos, cujo genoma expressa uma poliproteína e pertencem ao grupo 4 da classificação de Baltimore. Este grupo inclui o vírus Chikungunya e outras espécies que causam diversas patologias ao homem. O terceiro modelo de estudo escolhido foi a subfamília Spounavirinae, compreendendo bacteriófagos que infectam vários hospedeiros bacterianos e em alguns casos possuem potencial terapêutico comprovado contra infecções bacterianas que afetam o homem. Estes fagos apresentam partículas virais com estrutura cabeça-cauda, não são envelopados, apresentam genoma de dsDNA e pertencem ao grupo 1 da classificação de Baltimore. Todos os modelos construídos foram validados quanto à sensibilidade e especificidade de detecção e, ao final, foram utilizados em análises de prospecção de vírus em dados metagenômicos obtidos na base SRA do NCBI. Os HMMs de perfil apresentaram excelente desempenho, comprovando a viabilidade da metodologia proposta neste projeto. Os resultados apresentados neste trabalho abrem a perspectiva da ampla utilização de HMMs de perfil como ferramentas universais para a detecção e classificação de vírus em dados metagenômicos.Viruses are the most widely biological entities found in nature. Most of the information that can be obtained from these organisms requires viral in vitro isolation and cultivation. However, most of the existing viruses are still unknown because the biological requirements for their successful propagation have not been identified so far. Metagenomic analyses offer an interesting alternative for the detection and characterization of novel viruses, since previous cultivation is not required, and the samples may contain genetic material of multiple organisms. Once assembled sequences are obtained from individual reads, the most widely used method for viral identification and classification is the use of BLAST similarity searches against databases of known sequences. However, pairwise alignment methods are only able to identify sequences that present identity greater than 20-30%. Profile-based methods may increase the sensitivity of detection of remote homologues. Profile HMMs are probabilistic models capable of representing the diversity of amino acid residues at specific positions of a multiple sequence alignment. Our group is developing TABAJARA, a tool for the identification of alignment blocks that are conserved across all sequences of the alignment or discriminative between groups of sequences. These blocks are used to generate profile HMMs, which can in turn be used, in the context of virology, to identify broad taxonomic groups, such as viral families, or narrower taxa as genera or viral species. The present project aimed to apply and standardize the use of TABAJARA in different taxonomic groups of viruses, to build specific models for each of these groups and to validate these models in metagenomic data. We used three viral models for this study. The first chosen model was the Bunyavirales order, composed of mostly enveloped and spherical ssRNA(-) viruses with a segmented genome belonging to group 5 of the Baltimore classification. This group includes viruses that cause several important diseases in humans, animals and plants. The second chosen model was the Togaviridae family, composed of enveloped and spherical ssRNA(+) viruses, with a genome coding for a polyprotein, and belonging to group 4 of the Baltimore classification. This group includes the Chikungunya virus and some other viral species that cause relevant pathologies to humans and animals. Finally, we used the Spounavirinae subfamily, comprising viruses that infect a variety of bacterial hosts and that can potentially be used for phage therapy of some human bacterial diseases. These phages present non-enveloped virions with a head-to-tail structure, a dsDNA genome, and belong to group 1 of the Baltimore classification. All constructed profile HMMs were evaluated in regard to their sensitivity and specificity of detection, as well as tested in viral surveys using metagenomic data from the SRA database. The profile HMMs presented excellent performance, proving the viability of the methodology proposed in this project. The results presented in this work open the perspective of the wide use of profile HMMs as universal tools for the detection and classification of viruses in metagenomic data.Biblioteca Digitais de Teses e Dissertações da USPGruber, ArthurGuimarães, Miriã Nunes2019-02-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/95/95131/tde-24042019-115926/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-07-25T23:21:45Zoai:teses.usp.br:tde-24042019-115926Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-07-25T23:21:45Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
Construction and application of profile HMMs for the specific detection and classification of viruses
title Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
spellingShingle Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
Guimarães, Miriã Nunes
Bioinformática
Genomas
Hidden Markov models
Marcador molecular
Metagenomics
Modelos para processos estocásticos
Molecular markers
Profile HMMs
Viral taxonomy
Vírus
Virus detection
title_short Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
title_full Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
title_fullStr Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
title_full_unstemmed Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
title_sort Construção e aplicação de HMMs de perfil para a detecção e classificação de vírus
author Guimarães, Miriã Nunes
author_facet Guimarães, Miriã Nunes
author_role author
dc.contributor.none.fl_str_mv Gruber, Arthur
dc.contributor.author.fl_str_mv Guimarães, Miriã Nunes
dc.subject.por.fl_str_mv Bioinformática
Genomas
Hidden Markov models
Marcador molecular
Metagenomics
Modelos para processos estocásticos
Molecular markers
Profile HMMs
Viral taxonomy
Vírus
Virus detection
topic Bioinformática
Genomas
Hidden Markov models
Marcador molecular
Metagenomics
Modelos para processos estocásticos
Molecular markers
Profile HMMs
Viral taxonomy
Vírus
Virus detection
description Os vírus são as entidades biológicas mais abundantes encontradas na natureza. O método clássico de estudo dos vírus requerem seu isolamento e propagação in vitro. Contudo, necessita-se ter um conhecimento prévio sobre as condições necessárias para seu cultivo em células, sendo assim a maior parte dos vírus existentes não é conhecida. Análises metagenômicas são uma alternativa para a detecção e caracterização de novos vírus, uma vez que não requerem um cultivo prévio e as amostras podem conter material genético de múltiplos organismos. Uma vez obtidas as sequências montadas a partir das leituras metagenômicas, o método mais utilizado para a identificação e classificação dos organismos é a busca de similaridade com o programa BLAST contra bancos de sequências conhecidas. Contudo, métodos de alinhamento pareado são capazes de identificar apenas sequências com identidade superior a 20-30%. Uma alternativa a essa limitação é o uso de métodos baseados no uso de perfis, que podem aumentar a sensibilidade de detecção de homólogos filogeneticamente distantes. HMMs de perfil são modelos probabilísticos capazes de representar a diversidade de caracteres em posições-específicas de um alinhamento de múltiplas sequências. Nosso grupo desenvolveu a ferramenta TABAJARA, utilizada neste projeto, para a identificação de blocos que podem ser conservados em todas as sequências do alinhamento ou discriminativos entre grupos de sequências. Esses blocos são utilizados para a geração de HMMs de perfil, os quais podem ser usados, no contexto da virologia, para a identificação de grupos taxonômicos amplos como famílias virais ou, ainda, taxa mais restritos como gêneros ou mesmo espécies de vírus. O presente projeto teve como objetivos aplicar e otimizar o programa TABAJARA em diferentes grupos taxonômicos de vírus, construir modelos específicos para cada um desses grupos e validar esses modelos em dados metagenômicos. O primeiro modelo de estudo escolhido foi a ordem Bunyavirales, composta de vírus de ssRNA (-) majoritariamente envelopados e esféricos, com genoma segmentado e pertencentes ao grupo 5 da classificação de Baltimore. Este grupo inclui vírus causadores de várias doenças em humanos, animais e plantas. O segundo modelo de estudo escolhido foi a família Togaviridae, composta de vírus de ssRNA (+) envelopados e esféricos, cujo genoma expressa uma poliproteína e pertencem ao grupo 4 da classificação de Baltimore. Este grupo inclui o vírus Chikungunya e outras espécies que causam diversas patologias ao homem. O terceiro modelo de estudo escolhido foi a subfamília Spounavirinae, compreendendo bacteriófagos que infectam vários hospedeiros bacterianos e em alguns casos possuem potencial terapêutico comprovado contra infecções bacterianas que afetam o homem. Estes fagos apresentam partículas virais com estrutura cabeça-cauda, não são envelopados, apresentam genoma de dsDNA e pertencem ao grupo 1 da classificação de Baltimore. Todos os modelos construídos foram validados quanto à sensibilidade e especificidade de detecção e, ao final, foram utilizados em análises de prospecção de vírus em dados metagenômicos obtidos na base SRA do NCBI. Os HMMs de perfil apresentaram excelente desempenho, comprovando a viabilidade da metodologia proposta neste projeto. Os resultados apresentados neste trabalho abrem a perspectiva da ampla utilização de HMMs de perfil como ferramentas universais para a detecção e classificação de vírus em dados metagenômicos.
publishDate 2019
dc.date.none.fl_str_mv 2019-02-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/95/95131/tde-24042019-115926/
url http://www.teses.usp.br/teses/disponiveis/95/95131/tde-24042019-115926/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257302430646272