An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic

Detalhes bibliográficos
Autor(a) principal: Malta, Guilherme Brockhof Bueno de Oliveira
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/243290
Resumo: A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3.
id UFRGS-2_714ac0f3aafd0462fc79039e0a74765d
oai_identifier_str oai:www.lume.ufrgs.br:10183/243290
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Malta, Guilherme Brockhof Bueno de OliveiraRecamonde-Mendoza, Mariana2022-07-20T04:51:03Z2022http://hdl.handle.net/10183/243290001145191A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3.The COVID-19 pandemic has changed life quality globally, impacting aspects such as mental health and sleep quality. Although it is known that sleep quality can be associated with traumatic experiences, anxiety and depression symptoms, physical activities, and social and economic struggles, studies reported a non-uniform effect of these factors in the population during the COVID-19 pandemic. Additionally, most of the related stud ies used classical statistical analysis to investigate the association between sleep quality and covariates. Using a machine learning (ML) approach, this work aims to assess the most relevant variables to describe sleep quality in three different waves during the first six months of social distancing in Brazil. Our sample is composed of 1559 volunteers that filled the three phases of a web survey with questions divided into several subgroups (sociodemographics, COVID-19 exposure, information vehicles, social distancing, men tal health protection, mental health variables, anxiety, depression, and suicidal ideation), originating 111 variables. We trained classifiers by testing different balancing meth ods (downsampling, SMOTE, and no resampling) and different classification algorithms (Naïve Bayes, Random Forest, and Gradient Boosting Machine) within a cross-validation process. Models’ explainability was explored using the SHAP framework. The best clas sifiers for each wave were fitted using Naïve Bayes and downsampling. The results for wave 1 (W1) were PR-AUC: 0.589, Sensitivity (Sens): 0.726, Specificity (Spec): 0.660; for wave 2 (W2) were PR-AUC: 0.586, Sens: 0.771, Spec: 0.628; and, for wave 3 (W2) were PR-AUC: 0.531, Sens: 0.836, Spec: 0.636. The most important variables for the three waves were overall related to anxiety disorder symptoms (GAD) and depression symptoms (PHQ). In W1, leisure activities and family relationships were also relevant for predicting sleep quality. The results from SHAP analysis suggested that in W1, a period closer to the beginning of social distancing measures, the relationship between variables was complex and varied significantly among the individuals, except for more extreme cases where GAD and PHQ symptoms held higher importance in predictions. For W2 and W3, bad and good sleep quality were more directly related to the high and low preva lence of anxiety and depressive symptoms. Thus, our results assist in identifying the most relevant variables for predicting sleep quality during the COVID-19 pandemic and high light how the variables’ associations evolved over a social distancing period, indicating a much more unstable scenario in W1 compared to W3.application/pdfengCOVID-19Aprendizado de máquinaQualidade do sonoMachine learningInterpretabilitySleep qualityPandemicAn interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemicUma abordagem de aprendizado de máquina interpretável para prever a qualidade do sono em três ondas durante a pandemia de COVID-19 info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2021Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001145191.pdf.txt001145191.pdf.txtExtracted Texttext/plain65815http://www.lume.ufrgs.br/bitstream/10183/243290/2/001145191.pdf.txte8353987118057de0484ebd9fe4407c2MD52ORIGINAL001145191.pdfTexto completo (inglês)application/pdf1215763http://www.lume.ufrgs.br/bitstream/10183/243290/1/001145191.pdfee97844764c79dd40c85f3fef0ffe88cMD5110183/2432902022-07-21 04:57:32.628864oai:www.lume.ufrgs.br:10183/243290Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-07-21T07:57:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
dc.title.alternative.en.fl_str_mv Uma abordagem de aprendizado de máquina interpretável para prever a qualidade do sono em três ondas durante a pandemia de COVID-19
title An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
spellingShingle An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
Malta, Guilherme Brockhof Bueno de Oliveira
COVID-19
Aprendizado de máquina
Qualidade do sono
Machine learning
Interpretability
Sleep quality
Pandemic
title_short An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
title_full An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
title_fullStr An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
title_full_unstemmed An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
title_sort An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
author Malta, Guilherme Brockhof Bueno de Oliveira
author_facet Malta, Guilherme Brockhof Bueno de Oliveira
author_role author
dc.contributor.author.fl_str_mv Malta, Guilherme Brockhof Bueno de Oliveira
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
contributor_str_mv Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv COVID-19
Aprendizado de máquina
Qualidade do sono
topic COVID-19
Aprendizado de máquina
Qualidade do sono
Machine learning
Interpretability
Sleep quality
Pandemic
dc.subject.eng.fl_str_mv Machine learning
Interpretability
Sleep quality
Pandemic
description A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-07-20T04:51:03Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/243290
dc.identifier.nrb.pt_BR.fl_str_mv 001145191
url http://hdl.handle.net/10183/243290
identifier_str_mv 001145191
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/243290/2/001145191.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/243290/1/001145191.pdf
bitstream.checksum.fl_str_mv e8353987118057de0484ebd9fe4407c2
ee97844764c79dd40c85f3fef0ffe88c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224638290722816