Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/57359 |
Resumo: | Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas. |
id |
UFRN_a9cb391b710730ccb3d4d4275cd792f1 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/57359 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Coutinho, Maria Gracielly Fernandeshttp://lattes.cnpq.br/3355046178077879https://orcid.org/0000-0001-7536-2506http://lattes.cnpq.br/3475337353676349Takahashi, AdrianaDoria Neto, Adrião Duartehttps://orcid.org/0000-0002-5445-7327http://lattes.cnpq.br/1987295209521433Dias, Leonardo AlvesOliveira, Luiz Affonso Henderson Guedes deFernandes, Marcelo Augusto Costa2024-01-22T21:01:11Z2024-01-22T21:01:11Z2023-10-06COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/57359Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas.Since December 2019, the world has been intensely affected by the COVID-19 pandemic, caused by the SARS-CoV-2 virus. In the case of a novel virus identification, the early elucidation of taxonomic classification and origin of the virus genomic sequence is essential for strategic planning, containment, and treatments. Deep learning techniques have been successfully used in many viral classification problems associated with viral infection diagnosis, metagenomics, phylogenetics, and analysis. Considering that motivation, this work proposed an effective viral genome classifier for SARS-CoV-2 using the deep neural network based on the stacked sparse autoencoder (SSAE). For the best performance of the model, we explored the utilization of image representations of the complete genome sequences as the SSAE input to provide a classification of the SARSCoV-2. For that, two datasets were explored: based on k-mers image representation and based on CGR image representation. The dataset based on k-mers image representation was applied in the experiments of different levels of taxonomic classification of the SARS-CoV-2 virus, and the dataset based on CGR images was applied to the experiments of classification of SARS-CoV-2 variants of concern (VOC). For the experiments of taxonomy classification, the SSAE technique provided great performance results, achieving classification accuracy between 92% and 100% for the validation set and between 98.9% and 100% when the SARS-CoV-2 samples were applied for the test set. These results indicates that our model can be adapted to classify other emerging viruses. For the experiments of SARS-CoV-2 variants classification using CGR images, the SSAE technique provided even better results, achieving classification accuracy of 99.9% for the validation set and 99.8% for the test set. Finally, the results indicated the applicability of this deep learning technique in genome classification problems.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOUFRNBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICADeep learningSARS-CoV-2Covid-19Viral classificationImage representationsStacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequencesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALStackedSparseAutoencoder_Coutinho_2023.pdfapplication/pdf3466651https://repositorio.ufrn.br/bitstream/123456789/57359/1/StackedSparseAutoencoder_Coutinho_2023.pdfa7a659e6abf8d938af9854f67eb31cd5MD51123456789/573592024-01-22 18:01:49.373oai:https://repositorio.ufrn.br:123456789/57359Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2024-01-22T21:01:49Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
title |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
spellingShingle |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences Coutinho, Maria Gracielly Fernandes CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Deep learning SARS-CoV-2 Covid-19 Viral classification Image representations |
title_short |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
title_full |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
title_fullStr |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
title_full_unstemmed |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
title_sort |
Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences |
author |
Coutinho, Maria Gracielly Fernandes |
author_facet |
Coutinho, Maria Gracielly Fernandes |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3355046178077879 |
dc.contributor.advisorID.pt_BR.fl_str_mv |
https://orcid.org/0000-0001-7536-2506 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3475337353676349 |
dc.contributor.referees1.none.fl_str_mv |
Takahashi, Adriana |
dc.contributor.referees2.none.fl_str_mv |
Doria Neto, Adrião Duarte |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-5445-7327 |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1987295209521433 |
dc.contributor.referees3.none.fl_str_mv |
Dias, Leonardo Alves |
dc.contributor.referees4.none.fl_str_mv |
Oliveira, Luiz Affonso Henderson Guedes de |
dc.contributor.author.fl_str_mv |
Coutinho, Maria Gracielly Fernandes |
dc.contributor.advisor1.fl_str_mv |
Fernandes, Marcelo Augusto Costa |
contributor_str_mv |
Fernandes, Marcelo Augusto Costa |
dc.subject.cnpq.fl_str_mv |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
topic |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Deep learning SARS-CoV-2 Covid-19 Viral classification Image representations |
dc.subject.por.fl_str_mv |
Deep learning SARS-CoV-2 Covid-19 Viral classification Image representations |
description |
Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para o melhor desempenho do modelo, exploramos a utilização de representações de imagens das sequências completas do genoma como entrada do SSAE para fornecer a classificação do vírus SARS-CoV-2. Para isso, foram explorados dois conjuntos de dados: utilizando representações de imagens baseadas em k-mers e utilizando representações de imagens basedas em Chaos Game Repesentation (CGR). O conjunto de dados composto por representações de imagens baseadas em k-mers foi aplicado nos experimentos de classificação em diferentes níveis de taxonomia do vírus SARS-CoV-2, enquanto o conjunto de dados baseado em imagens CGR foi aplicado nos experimentos de classificação das variantes de preocupação do SARS-CoV-2. Para os experimentos de classificação taxonômica, a técnica SSAE forneceu ótimos resultados, alcançando acurácias entre 92% e 100% para o conjunto de validação, e entre 98.9% e 100% de acurácia para o conjunto de teste, que aplicou amostras do SARS-CoV-2. Isto indica que o nosso modelo pode ser adaptado para classificar outros vírus emergentes. Para os experimentos de classificação das variantes do SARS-CoV-2 utilizando imagens CGR, a técnica SSAE proporcionou resultados ainda melhores, alcançando acurácia de classificação de 99,9% para o conjunto de validação e 99,8% para o conjunto de teste. Por fim, os resultados indicaram a aplicabilidade desta técnica de aprendizagem profunda em problemas de classificação de genomas. |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023-10-06 |
dc.date.accessioned.fl_str_mv |
2024-01-22T21:01:11Z |
dc.date.available.fl_str_mv |
2024-01-22T21:01:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/57359 |
identifier_str_mv |
COUTINHO, Maria Gracielly Fernandes. Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2023. 84f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2023. |
url |
https://repositorio.ufrn.br/handle/123456789/57359 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/57359/1/StackedSparseAutoencoder_Coutinho_2023.pdf |
bitstream.checksum.fl_str_mv |
a7a659e6abf8d938af9854f67eb31cd5 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117825542750208 |