Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences

Detalhes bibliográficos
Autor(a) principal: Coutinho, Maria Gracielly Fernandes
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/57359
Resumo: Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas.
id UFRN_a9cb391b710730ccb3d4d4275cd792f1
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/57359
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Coutinho, Maria Gracielly Fernandeshttp://lattes.cnpq.br/3355046178077879https://orcid.org/0000-0001-7536-2506http://lattes.cnpq.br/3475337353676349Takahashi, AdrianaDoria Neto, Adrião Duartehttps://orcid.org/0000-0002-5445-7327http://lattes.cnpq.br/1987295209521433Dias, Leonardo AlvesOliveira, Luiz Affonso Henderson Guedes deFernandes, Marcelo Augusto Costa2024-01-22T21:01:11Z2024-01-22T21:01:11Z2023-10-06COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/57359Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas.Since December 2019, the world has been intensely affected by the COVID-19 pandemic, caused by the SARS-CoV-2 virus. In the case of a novel virus identification, the early elucidation of taxonomic classification and origin of the virus genomic sequence is essential for strategic planning, containment, and treatments. Deep learning techniques have been successfully used in many viral classification problems associated with viral infection diagnosis, metagenomics, phylogenetics, and analysis. Considering that motivation, this work proposed an effective viral genome classifier for SARS-CoV-2 using the deep neural network based on the stacked sparse autoencoder (SSAE). For the best performance of the model, we explored the utilization of image representations of the complete genome sequences as the SSAE input to provide a classification of the SARSCoV-2. For that, two datasets were explored: based on k-mers image representation and based on CGR image representation. The dataset based on k-mers image representation was applied in the experiments of different levels of taxonomic classification of the SARS-CoV-2 virus, and the dataset based on CGR images was applied to the experiments of classification of SARS-CoV-2 variants of concern (VOC). For the experiments of taxonomy classification, the SSAE technique provided great performance results, achieving classification accuracy between 92% and 100% for the validation set and between 98.9% and 100% when the SARS-CoV-2 samples were applied for the test set. These results indicates that our model can be adapted to classify other emerging viruses. For the experiments of SARS-CoV-2 variants classification using CGR images, the SSAE technique provided even better results, achieving classification accuracy of 99.9% for the validation set and 99.8% for the test set. Finally, the results indicated the applicability of this deep learning technique in genome classification problems.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOUFRNBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICADeep learningSARS-CoV-2Covid-19Viral classificationImage representationsStacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequencesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALStackedSparseAutoencoder_Coutinho_2023.pdfapplication/pdf3466651https://repositorio.ufrn.br/bitstream/123456789/57359/1/StackedSparseAutoencoder_Coutinho_2023.pdfa7a659e6abf8d938af9854f67eb31cd5MD51123456789/573592024-01-22 18:01:49.373oai:https://repositorio.ufrn.br:123456789/57359Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2024-01-22T21:01:49Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
title Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
spellingShingle Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
Coutinho, Maria Gracielly Fernandes
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Deep learning
SARS-CoV-2
Covid-19
Viral classification
Image representations
title_short Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
title_full Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
title_fullStr Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
title_full_unstemmed Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
title_sort Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
author Coutinho, Maria Gracielly Fernandes
author_facet Coutinho, Maria Gracielly Fernandes
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3355046178077879
dc.contributor.advisorID.pt_BR.fl_str_mv https://orcid.org/0000-0001-7536-2506
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3475337353676349
dc.contributor.referees1.none.fl_str_mv Takahashi, Adriana
dc.contributor.referees2.none.fl_str_mv Doria Neto, Adrião Duarte
dc.contributor.referees2ID.pt_BR.fl_str_mv https://orcid.org/0000-0002-5445-7327
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1987295209521433
dc.contributor.referees3.none.fl_str_mv Dias, Leonardo Alves
dc.contributor.referees4.none.fl_str_mv Oliveira, Luiz Affonso Henderson Guedes de
dc.contributor.author.fl_str_mv Coutinho, Maria Gracielly Fernandes
dc.contributor.advisor1.fl_str_mv Fernandes, Marcelo Augusto Costa
contributor_str_mv Fernandes, Marcelo Augusto Costa
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Deep learning
SARS-CoV-2
Covid-19
Viral classification
Image representations
dc.subject.por.fl_str_mv Deep learning
SARS-CoV-2
Covid-19
Viral classification
Image representations
description Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas.
publishDate 2023
dc.date.issued.fl_str_mv 2023-10-06
dc.date.accessioned.fl_str_mv 2024-01-22T21:01:11Z
dc.date.available.fl_str_mv 2024-01-22T21:01:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/57359
identifier_str_mv COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023.
url https://repositorio.ufrn.br/handle/123456789/57359
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/57359/1/StackedSparseAutoencoder_Coutinho_2023.pdf
bitstream.checksum.fl_str_mv a7a659e6abf8d938af9854f67eb31cd5
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117825542750208