Representação, classificação e interpretação de sequências proteicas do vírus da dengue

Detalhes bibliográficos
Autor(a) principal: Souza, Leonardo Rodrigues de
Data de Publicação: 2021
Outros Autores: http://lattes.cnpq.br/5627284616195992, https://orcid.org/0000-0002-2914-8397
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFAM
Texto Completo: https://tede.ufam.edu.br/handle/tede/8206
Resumo: O vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos.
id UFAM_555a8e56caf470172cf3724b08e65e3b
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/8206
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str 6592
spelling Representação, classificação e interpretação de sequências proteicas do vírus da dengueRepresentation, classification and interpretation of dengue virus protein sequencesVírus da dengueMétodo Shap ValuesMatrizes de co-ocorrênciaTeste estáticoProteína ECIÊNCIAS EXATAS E DA TERRADengueProteínasMatriz de Co-ocorrênciaClassificaçãoInterpretaçãoO vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos.The dengue virus is responsible for causing a very common infection in some Latin America and the Western Pacific countries, triggering several symptoms, such as fever, headache, nausea, vomiting and muscle pain. The infection levels can be divided into: fever, hemorrhagic fever and shock syndrome, the last two cases being associated with fatalities. The causes that lead hosts to develop severe infection cases are not completely known. However, the proteins that make up the dengue virus genetic material are a potential source for extracting information, an example of which are the characteristics present in those that allow differentiating the virus between serotypes and genotypes subclasses, in addition to containing phylogenetic information. Therefore, it is acceptable to assume that these structures have characteristics capable of raising the severe dengue understanding. The challenge of working with proteins is the difficulty of capturing interest characteristics, since they occur in patterns forms in small functional regions scattered in sequence. Therefore, proteins representations in structures where patterns can be easily accessed becomes a viable alternative for data treatment of this type. In this research, we propose a methodology to identify patterns in dengue proteins associated with severe dengue in human hosts. The method is based on dengue proteins codon co-occurrence matrices representation. The Random Forests (RF) and Convolutional Neuural Network (CNN) algorithms are used to classify matrices labeled as classic/severe dengue. Subsequently, the classifiers are interpreted by SHAP Values method, which, in turn, shows which co-occurrences increase severe dengue probability in the sample. The interpretations results are grouped into importance plots that make it possible to highlight the codon co-occurrence patterns associated with severe dengue. We independently classify each dengue proteins. Experiments using RF achieved AUC results ranging from 0.70 to 0.83. The best results were obtained from the protein E matrices classification in 25 results (five experiments with five cross-validation folds each), reaching an AUC of 0.83 +- 0.02 with 95% interval trust. The statistical tests of Levene, Shapiro-Wilk, ANOVA and Tukey were used to test whether the metrics averages calculated in the 25 results were different between proteins, thus, it was found that the results of protein E are statistically different from other proteins results, giving evidence that protein E best characterizes severe dengue. Through the proposed method, we obtained new evidence on severe dengue development, directly associating it with frequent codon co-occurrence patterns. Our method made it possible to find the existence of high co-occurrences in protein E that may be associated with the severe dengue onset in the host. In addition, in more granular explorations, we observed co-occurrences groups that increase the severe dengue likelihood for those different four serotypes. These results may play an important role in proposing new treatments, as well as being the subject of debate on new theories regarding the development of severe dengue in human hosts.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaColonna, Juan Gabrielhttp://lattes.cnpq.br/9535853909210803Nakamura, Eduardo Freirehttp://lattes.cnpq.br/1448696292042915Costa, Elloá Barreto Guedes dahttp://lattes.cnpq.br/6466781778573760Souza, Leonardo Rodrigues dehttp://lattes.cnpq.br/5627284616195992https://orcid.org/0000-0002-2914-83972021-04-07T03:53:03Z2021-03-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021.https://tede.ufam.edu.br/handle/tede/8206porhttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2021-04-07T05:03:41Zoai:https://tede.ufam.edu.br/handle/:tede/8206Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922021-04-07T05:03:41Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Representação, classificação e interpretação de sequências proteicas do vírus da dengue
Representation, classification and interpretation of dengue virus protein sequences
title Representação, classificação e interpretação de sequências proteicas do vírus da dengue
spellingShingle Representação, classificação e interpretação de sequências proteicas do vírus da dengue
Souza, Leonardo Rodrigues de
Vírus da dengue
Método Shap Values
Matrizes de co-ocorrência
Teste estático
Proteína E
CIÊNCIAS EXATAS E DA TERRA
Dengue
Proteínas
Matriz de Co-ocorrência
Classificação
Interpretação
title_short Representação, classificação e interpretação de sequências proteicas do vírus da dengue
title_full Representação, classificação e interpretação de sequências proteicas do vírus da dengue
title_fullStr Representação, classificação e interpretação de sequências proteicas do vírus da dengue
title_full_unstemmed Representação, classificação e interpretação de sequências proteicas do vírus da dengue
title_sort Representação, classificação e interpretação de sequências proteicas do vírus da dengue
author Souza, Leonardo Rodrigues de
author_facet Souza, Leonardo Rodrigues de
http://lattes.cnpq.br/5627284616195992
https://orcid.org/0000-0002-2914-8397
author_role author
author2 http://lattes.cnpq.br/5627284616195992
https://orcid.org/0000-0002-2914-8397
author2_role author
author
dc.contributor.none.fl_str_mv Colonna, Juan Gabriel
http://lattes.cnpq.br/9535853909210803
Nakamura, Eduardo Freire
http://lattes.cnpq.br/1448696292042915
Costa, Elloá Barreto Guedes da
http://lattes.cnpq.br/6466781778573760
dc.contributor.author.fl_str_mv Souza, Leonardo Rodrigues de
http://lattes.cnpq.br/5627284616195992
https://orcid.org/0000-0002-2914-8397
dc.subject.por.fl_str_mv Vírus da dengue
Método Shap Values
Matrizes de co-ocorrência
Teste estático
Proteína E
CIÊNCIAS EXATAS E DA TERRA
Dengue
Proteínas
Matriz de Co-ocorrência
Classificação
Interpretação
topic Vírus da dengue
Método Shap Values
Matrizes de co-ocorrência
Teste estático
Proteína E
CIÊNCIAS EXATAS E DA TERRA
Dengue
Proteínas
Matriz de Co-ocorrência
Classificação
Interpretação
description O vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos.
publishDate 2021
dc.date.none.fl_str_mv 2021-04-07T03:53:03Z
2021-03-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021.
https://tede.ufam.edu.br/handle/tede/8206
identifier_str_mv SOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021.
url https://tede.ufam.edu.br/handle/tede/8206
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1809732043533189120