Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota

Detalhes bibliográficos
Autor(a) principal: Gomes, Ruither Arthur Loch
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/32083
https://doi.org/10.47328/ufvbbt.2024.002
Resumo: Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learning
id UFV_552fd1bee9a8341eccf936c088747796
oai_identifier_str oai:locus.ufv.br:123456789/32083
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Gomes, Ruither Arthur Lochhttp://lattes.cnpq.br/6476684270507219Zerbini, Francisco Murilo2024-01-31T13:17:21Z2024-01-31T13:17:21Z2023-04-27GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023.https://locus.ufv.br//handle/123456789/32083https://doi.org/10.47328/ufvbbt.2024.002Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learningViruses affect biogeochemical cycles and infect organisms in all environments on earth. Advances in different technologies, such as high-throughput sequencing and computational biology, have shed light on the real diversity and abundance of viruses. One of the most important consequences was the discovery of an immense number of viral sequences with no similarity with previously characterized viruses. While the taxonomic classification of viruses had been carried out for decades based on phenotypic characteristics, this new reality created the need for the direct use of sequences, even in the absence of any biological information, for taxonomic classification. With this new scenario of plentiful availability of sequence data, advances in computational power and machine learning have emerged as essential tools for classifying and annotating sequences derived from this "data deluge". Several computational tools have been proposed and developed using different approaches to work with these data, and machine learning has been highlighted for its high prediction accuracy. In taxonomy, different approaches have been applied to specific groups of viruses, and only recently an algorithm, VirusTaxo, has been developed to taxonomically classify all types of viruses with considerable accuracy. Among the many families of viruses, some fall within a group of viruses with small, circular, single-stranded DNA genomes that encode a replication-related protein that is relatively conserved among its members. These viruses, classified in the phylum Cressdnaviricota, are interesting examples for evaluating in silico methods of classification and analysis of gene function. Thus, in the first part of this work, the ability of convolutional neural networks to taxonomically classify cressdnaviricots was evaluated. It was possible to obtain an accuracy in the test data superior to VirusTaxo, the tool currently with greater taxonomic prediction capacity. In the second part, computational tools were used to identify possible small functional ORFs in begomovirus-associated alphasatellites that may be related to symptom variations observed between New World and Old World alphasatellites and it was possible to identify two small ORFs with predicted functional domains. Keywords: Virus, Cressdnaviricota, bioinformatics, machine learningCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESporUniversidade Federal de ViçosaBioquímica AplicadaVírus - GenéticaMapeamento macrossômicoApredinzado do computadorRedes neurais (computação)Biologia MolecularClassificação e anotação in silico de genomas virais relacionados ao filo CressdnaviricotaClassification and in silico annotation of viral genomes related to the phylum Cressdnaviricotainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de Bioquímica e Biologia MolecularDoutor em Bioquímica AplicadaViçosa - MG2023-04-27Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1543340https://locus.ufv.br//bitstream/123456789/32083/3/texto%20completo.pdf1b8e714df7891e9cfed6652842be4709MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/32083/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/320832024-02-02 10:57:33.817oai:locus.ufv.br:123456789/32083Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-02-02T13:57:33LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
dc.title.en.fl_str_mv Classification and in silico annotation of viral genomes related to the phylum Cressdnaviricota
title Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
spellingShingle Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
Gomes, Ruither Arthur Loch
Vírus - Genética
Mapeamento macrossômico
Apredinzado do computador
Redes neurais (computação)
Biologia Molecular
title_short Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
title_full Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
title_fullStr Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
title_full_unstemmed Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
title_sort Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
author Gomes, Ruither Arthur Loch
author_facet Gomes, Ruither Arthur Loch
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/6476684270507219
dc.contributor.author.fl_str_mv Gomes, Ruither Arthur Loch
dc.contributor.advisor1.fl_str_mv Zerbini, Francisco Murilo
contributor_str_mv Zerbini, Francisco Murilo
dc.subject.pt-BR.fl_str_mv Vírus - Genética
Mapeamento macrossômico
Apredinzado do computador
Redes neurais (computação)
topic Vírus - Genética
Mapeamento macrossômico
Apredinzado do computador
Redes neurais (computação)
Biologia Molecular
dc.subject.cnpq.fl_str_mv Biologia Molecular
description Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learning
publishDate 2023
dc.date.issued.fl_str_mv 2023-04-27
dc.date.accessioned.fl_str_mv 2024-01-31T13:17:21Z
dc.date.available.fl_str_mv 2024-01-31T13:17:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/32083
dc.identifier.doi.pt-BR.fl_str_mv https://doi.org/10.47328/ufvbbt.2024.002
identifier_str_mv GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023.
url https://locus.ufv.br//handle/123456789/32083
https://doi.org/10.47328/ufvbbt.2024.002
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Bioquímica Aplicada
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/32083/3/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/32083/2/license.txt
bitstream.checksum.fl_str_mv 1b8e714df7891e9cfed6652842be4709
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801212943924199424