Representação, classificação e interpretação de sequências proteicas do vírus da dengue
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Outros Autores: | , |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFAM |
Texto Completo: | https://tede.ufam.edu.br/handle/tede/8206 |
Resumo: | O vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos. |
id |
UFAM_555a8e56caf470172cf3724b08e65e3b |
---|---|
oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/8206 |
network_acronym_str |
UFAM |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository_id_str |
6592 |
spelling |
Representação, classificação e interpretação de sequências proteicas do vírus da dengueRepresentation, classification and interpretation of dengue virus protein sequencesVírus da dengueMétodo Shap ValuesMatrizes de co-ocorrênciaTeste estáticoProteína ECIÊNCIAS EXATAS E DA TERRADengueProteínasMatriz de Co-ocorrênciaClassificaçãoInterpretaçãoO vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos.The dengue virus is responsible for causing a very common infection in some Latin America and the Western Pacific countries, triggering several symptoms, such as fever, headache, nausea, vomiting and muscle pain. The infection levels can be divided into: fever, hemorrhagic fever and shock syndrome, the last two cases being associated with fatalities. The causes that lead hosts to develop severe infection cases are not completely known. However, the proteins that make up the dengue virus genetic material are a potential source for extracting information, an example of which are the characteristics present in those that allow differentiating the virus between serotypes and genotypes subclasses, in addition to containing phylogenetic information. Therefore, it is acceptable to assume that these structures have characteristics capable of raising the severe dengue understanding. The challenge of working with proteins is the difficulty of capturing interest characteristics, since they occur in patterns forms in small functional regions scattered in sequence. Therefore, proteins representations in structures where patterns can be easily accessed becomes a viable alternative for data treatment of this type. In this research, we propose a methodology to identify patterns in dengue proteins associated with severe dengue in human hosts. The method is based on dengue proteins codon co-occurrence matrices representation. The Random Forests (RF) and Convolutional Neuural Network (CNN) algorithms are used to classify matrices labeled as classic/severe dengue. Subsequently, the classifiers are interpreted by SHAP Values method, which, in turn, shows which co-occurrences increase severe dengue probability in the sample. The interpretations results are grouped into importance plots that make it possible to highlight the codon co-occurrence patterns associated with severe dengue. We independently classify each dengue proteins. Experiments using RF achieved AUC results ranging from 0.70 to 0.83. The best results were obtained from the protein E matrices classification in 25 results (five experiments with five cross-validation folds each), reaching an AUC of 0.83 +- 0.02 with 95% interval trust. The statistical tests of Levene, Shapiro-Wilk, ANOVA and Tukey were used to test whether the metrics averages calculated in the 25 results were different between proteins, thus, it was found that the results of protein E are statistically different from other proteins results, giving evidence that protein E best characterizes severe dengue. Through the proposed method, we obtained new evidence on severe dengue development, directly associating it with frequent codon co-occurrence patterns. Our method made it possible to find the existence of high co-occurrences in protein E that may be associated with the severe dengue onset in the host. In addition, in more granular explorations, we observed co-occurrences groups that increase the severe dengue likelihood for those different four serotypes. These results may play an important role in proposing new treatments, as well as being the subject of debate on new theories regarding the development of severe dengue in human hosts.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaColonna, Juan Gabrielhttp://lattes.cnpq.br/9535853909210803Nakamura, Eduardo Freirehttp://lattes.cnpq.br/1448696292042915Costa, Elloá Barreto Guedes dahttp://lattes.cnpq.br/6466781778573760Souza, Leonardo Rodrigues dehttp://lattes.cnpq.br/5627284616195992https://orcid.org/0000-0002-2914-83972021-04-07T03:53:03Z2021-03-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021.https://tede.ufam.edu.br/handle/tede/8206porhttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2021-04-07T05:03:41Zoai:https://tede.ufam.edu.br/handle/:tede/8206Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922021-04-07T05:03:41Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
dc.title.none.fl_str_mv |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue Representation, classification and interpretation of dengue virus protein sequences |
title |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
spellingShingle |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue Souza, Leonardo Rodrigues de Vírus da dengue Método Shap Values Matrizes de co-ocorrência Teste estático Proteína E CIÊNCIAS EXATAS E DA TERRA Dengue Proteínas Matriz de Co-ocorrência Classificação Interpretação |
title_short |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
title_full |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
title_fullStr |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
title_full_unstemmed |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
title_sort |
Representação, classificação e interpretação de sequências proteicas do vírus da dengue |
author |
Souza, Leonardo Rodrigues de |
author_facet |
Souza, Leonardo Rodrigues de http://lattes.cnpq.br/5627284616195992 https://orcid.org/0000-0002-2914-8397 |
author_role |
author |
author2 |
http://lattes.cnpq.br/5627284616195992 https://orcid.org/0000-0002-2914-8397 |
author2_role |
author author |
dc.contributor.none.fl_str_mv |
Colonna, Juan Gabriel http://lattes.cnpq.br/9535853909210803 Nakamura, Eduardo Freire http://lattes.cnpq.br/1448696292042915 Costa, Elloá Barreto Guedes da http://lattes.cnpq.br/6466781778573760 |
dc.contributor.author.fl_str_mv |
Souza, Leonardo Rodrigues de http://lattes.cnpq.br/5627284616195992 https://orcid.org/0000-0002-2914-8397 |
dc.subject.por.fl_str_mv |
Vírus da dengue Método Shap Values Matrizes de co-ocorrência Teste estático Proteína E CIÊNCIAS EXATAS E DA TERRA Dengue Proteínas Matriz de Co-ocorrência Classificação Interpretação |
topic |
Vírus da dengue Método Shap Values Matrizes de co-ocorrência Teste estático Proteína E CIÊNCIAS EXATAS E DA TERRA Dengue Proteínas Matriz de Co-ocorrência Classificação Interpretação |
description |
O vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-04-07T03:53:03Z 2021-03-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021. https://tede.ufam.edu.br/handle/tede/8206 |
identifier_str_mv |
SOUZA, Leonardo Rodrigues de. Representação, classificação e interpretação de sequências proteicas do vírus da dengue. 2021. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2021. |
url |
https://tede.ufam.edu.br/handle/tede/8206 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
instname_str |
Universidade Federal do Amazonas (UFAM) |
instacron_str |
UFAM |
institution |
UFAM |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
_version_ |
1809732043533189120 |