Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | https://locus.ufv.br//handle/123456789/32083 https://doi.org/10.47328/ufvbbt.2024.002 |
Resumo: | Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learning |
id |
UFV_552fd1bee9a8341eccf936c088747796 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/32083 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Gomes, Ruither Arthur Lochhttp://lattes.cnpq.br/6476684270507219Zerbini, Francisco Murilo2024-01-31T13:17:21Z2024-01-31T13:17:21Z2023-04-27GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023.https://locus.ufv.br//handle/123456789/32083https://doi.org/10.47328/ufvbbt.2024.002Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learningViruses affect biogeochemical cycles and infect organisms in all environments on earth. Advances in different technologies, such as high-throughput sequencing and computational biology, have shed light on the real diversity and abundance of viruses. One of the most important consequences was the discovery of an immense number of viral sequences with no similarity with previously characterized viruses. While the taxonomic classification of viruses had been carried out for decades based on phenotypic characteristics, this new reality created the need for the direct use of sequences, even in the absence of any biological information, for taxonomic classification. With this new scenario of plentiful availability of sequence data, advances in computational power and machine learning have emerged as essential tools for classifying and annotating sequences derived from this "data deluge". Several computational tools have been proposed and developed using different approaches to work with these data, and machine learning has been highlighted for its high prediction accuracy. In taxonomy, different approaches have been applied to specific groups of viruses, and only recently an algorithm, VirusTaxo, has been developed to taxonomically classify all types of viruses with considerable accuracy. Among the many families of viruses, some fall within a group of viruses with small, circular, single-stranded DNA genomes that encode a replication-related protein that is relatively conserved among its members. These viruses, classified in the phylum Cressdnaviricota, are interesting examples for evaluating in silico methods of classification and analysis of gene function. Thus, in the first part of this work, the ability of convolutional neural networks to taxonomically classify cressdnaviricots was evaluated. It was possible to obtain an accuracy in the test data superior to VirusTaxo, the tool currently with greater taxonomic prediction capacity. In the second part, computational tools were used to identify possible small functional ORFs in begomovirus-associated alphasatellites that may be related to symptom variations observed between New World and Old World alphasatellites and it was possible to identify two small ORFs with predicted functional domains. Keywords: Virus, Cressdnaviricota, bioinformatics, machine learningCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESporUniversidade Federal de ViçosaBioquímica AplicadaVírus - GenéticaMapeamento macrossômicoApredinzado do computadorRedes neurais (computação)Biologia MolecularClassificação e anotação in silico de genomas virais relacionados ao filo CressdnaviricotaClassification and in silico annotation of viral genomes related to the phylum Cressdnaviricotainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de Bioquímica e Biologia MolecularDoutor em Bioquímica AplicadaViçosa - MG2023-04-27Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1543340https://locus.ufv.br//bitstream/123456789/32083/3/texto%20completo.pdf1b8e714df7891e9cfed6652842be4709MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/32083/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/320832024-02-02 10:57:33.817oai:locus.ufv.br:123456789/32083Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-02-02T13:57:33LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
dc.title.en.fl_str_mv |
Classification and in silico annotation of viral genomes related to the phylum Cressdnaviricota |
title |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
spellingShingle |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota Gomes, Ruither Arthur Loch Vírus - Genética Mapeamento macrossômico Apredinzado do computador Redes neurais (computação) Biologia Molecular |
title_short |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
title_full |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
title_fullStr |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
title_full_unstemmed |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
title_sort |
Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota |
author |
Gomes, Ruither Arthur Loch |
author_facet |
Gomes, Ruither Arthur Loch |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/6476684270507219 |
dc.contributor.author.fl_str_mv |
Gomes, Ruither Arthur Loch |
dc.contributor.advisor1.fl_str_mv |
Zerbini, Francisco Murilo |
contributor_str_mv |
Zerbini, Francisco Murilo |
dc.subject.pt-BR.fl_str_mv |
Vírus - Genética Mapeamento macrossômico Apredinzado do computador Redes neurais (computação) |
topic |
Vírus - Genética Mapeamento macrossômico Apredinzado do computador Redes neurais (computação) Biologia Molecular |
dc.subject.cnpq.fl_str_mv |
Biologia Molecular |
description |
Os vírus afetam ciclos biogeoquímicos e infectam organismos em todos os ambientes da terra. Avanços em diferentes tecnologias, como o sequenciamento de alto rendimento e a biologica computacional, trouxeram luz sobre a real diversidade e abundância dos vírus. Uma das consequências mais importantes foi a descoberta de um imenso número de sequências virais, porém sem similaridade com vírus previamente caracterizados. Enquanto a classificação taxonômica dos vírus havia sido feita por décadas com base em características fenotípicas, essa nova realidade gerou a necessidade da utilização direta das sequências, mesmo na ausência de qualquer informação biológica, para a classificação taxonômica. Com esse novo panorama de farta disponibilidade de dados de sequência, avanços no poder computacional e de aprendizado de máquina surgiram como ferramentas essenciais para classificação e anotação das sequências derivadas desse "dilúvio de dados". Diversas ferramentas computacionais vêm sendo propostas e desenvolvidas usando diferentes abordagens para trabalhar com esses dados, e o aprendizado de máquina vem se destacando por sua alta acurácia de predição. Na taxonomia, diferentes abordagens vem sendo aplicadas para grupos específicos de vírus, e só recentemente foi desenvolvido um algoritmo, VirusTaxo, para classificação taxonômica de todos os tipos de vírus com acurácia considerável. Entre as diversas famílias de vírus, algumas se enquadram dentro de um grupo de vírus com genomas de DNA de fita simples circulares e pequenos, que codificam uma proteína relacionada à replicação que é relativamente conservada entre seus membros. Esses vírus, classificados no filo Cressdnaviricota, são exemplares interessantes para se avaliar métodos in silico de classificação e análise de funções gênicas. Assim, na primeira parte desse trabalho, foi avaliada a capacidade das redes neurais convolucionais para classificar taxonomicamente os cressdnavírus. Foi possível obter uma acurácia nos dados de teste superior ao VirusTaxo, a ferramenta com maior capacidade de predição taxonômica atualmente. Na segunda parte, foram utilizadas ferramentas computacionais para identificar possíveis pequenas ORFs funcionais em alfassatélites associados a begomovírus que possam estar relacionadas a variações de sintomas observadas entre alfassatélites do Novo Mundo e do Velho Mundo e foi possível identificar duas pequenas ORF com domínios funcionais preditos. Palavras-chave: Vírus, Cressdnaviricota, bioinformática, machine learning |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023-04-27 |
dc.date.accessioned.fl_str_mv |
2024-01-31T13:17:21Z |
dc.date.available.fl_str_mv |
2024-01-31T13:17:21Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023. |
dc.identifier.uri.fl_str_mv |
https://locus.ufv.br//handle/123456789/32083 |
dc.identifier.doi.pt-BR.fl_str_mv |
https://doi.org/10.47328/ufvbbt.2024.002 |
identifier_str_mv |
GOMES, Ruither Arthur Loch. Classificação e anotação in silico de genomas virais relacionados ao filo Cressdnaviricota. 2023.79 f. Tese (Doutorado em Bioquímica Aplicada) - Universidade Federal de Viçosa, Viçosa. 2023. |
url |
https://locus.ufv.br//handle/123456789/32083 https://doi.org/10.47328/ufvbbt.2024.002 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Bioquímica Aplicada |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/32083/3/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/32083/2/license.txt |
bitstream.checksum.fl_str_mv |
1b8e714df7891e9cfed6652842be4709 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212943924199424 |