An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/243290 |
Resumo: | A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3. |
id |
UFRGS-2_714ac0f3aafd0462fc79039e0a74765d |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/243290 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Malta, Guilherme Brockhof Bueno de OliveiraRecamonde-Mendoza, Mariana2022-07-20T04:51:03Z2022http://hdl.handle.net/10183/243290001145191A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3.The COVID-19 pandemic has changed life quality globally, impacting aspects such as mental health and sleep quality. Although it is known that sleep quality can be associated with traumatic experiences, anxiety and depression symptoms, physical activities, and social and economic struggles, studies reported a non-uniform effect of these factors in the population during the COVID-19 pandemic. Additionally, most of the related stud ies used classical statistical analysis to investigate the association between sleep quality and covariates. Using a machine learning (ML) approach, this work aims to assess the most relevant variables to describe sleep quality in three different waves during the first six months of social distancing in Brazil. Our sample is composed of 1559 volunteers that filled the three phases of a web survey with questions divided into several subgroups (sociodemographics, COVID-19 exposure, information vehicles, social distancing, men tal health protection, mental health variables, anxiety, depression, and suicidal ideation), originating 111 variables. We trained classifiers by testing different balancing meth ods (downsampling, SMOTE, and no resampling) and different classification algorithms (Naïve Bayes, Random Forest, and Gradient Boosting Machine) within a cross-validation process. Models’ explainability was explored using the SHAP framework. The best clas sifiers for each wave were fitted using Naïve Bayes and downsampling. The results for wave 1 (W1) were PR-AUC: 0.589, Sensitivity (Sens): 0.726, Specificity (Spec): 0.660; for wave 2 (W2) were PR-AUC: 0.586, Sens: 0.771, Spec: 0.628; and, for wave 3 (W2) were PR-AUC: 0.531, Sens: 0.836, Spec: 0.636. The most important variables for the three waves were overall related to anxiety disorder symptoms (GAD) and depression symptoms (PHQ). In W1, leisure activities and family relationships were also relevant for predicting sleep quality. The results from SHAP analysis suggested that in W1, a period closer to the beginning of social distancing measures, the relationship between variables was complex and varied significantly among the individuals, except for more extreme cases where GAD and PHQ symptoms held higher importance in predictions. For W2 and W3, bad and good sleep quality were more directly related to the high and low preva lence of anxiety and depressive symptoms. Thus, our results assist in identifying the most relevant variables for predicting sleep quality during the COVID-19 pandemic and high light how the variables’ associations evolved over a social distancing period, indicating a much more unstable scenario in W1 compared to W3.application/pdfengCOVID-19Aprendizado de máquinaQualidade do sonoMachine learningInterpretabilitySleep qualityPandemicAn interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemicUma abordagem de aprendizado de máquina interpretável para prever a qualidade do sono em três ondas durante a pandemia de COVID-19 info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2021Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001145191.pdf.txt001145191.pdf.txtExtracted Texttext/plain65815http://www.lume.ufrgs.br/bitstream/10183/243290/2/001145191.pdf.txte8353987118057de0484ebd9fe4407c2MD52ORIGINAL001145191.pdfTexto completo (inglês)application/pdf1215763http://www.lume.ufrgs.br/bitstream/10183/243290/1/001145191.pdfee97844764c79dd40c85f3fef0ffe88cMD5110183/2432902022-07-21 04:57:32.628864oai:www.lume.ufrgs.br:10183/243290Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-07-21T07:57:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
dc.title.alternative.en.fl_str_mv |
Uma abordagem de aprendizado de máquina interpretável para prever a qualidade do sono em três ondas durante a pandemia de COVID-19 |
title |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
spellingShingle |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic Malta, Guilherme Brockhof Bueno de Oliveira COVID-19 Aprendizado de máquina Qualidade do sono Machine learning Interpretability Sleep quality Pandemic |
title_short |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
title_full |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
title_fullStr |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
title_full_unstemmed |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
title_sort |
An interpretable machine learning approach for predicting sleep quality in three temporal waves throughout the COVID-19 pandemic |
author |
Malta, Guilherme Brockhof Bueno de Oliveira |
author_facet |
Malta, Guilherme Brockhof Bueno de Oliveira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Malta, Guilherme Brockhof Bueno de Oliveira |
dc.contributor.advisor1.fl_str_mv |
Recamonde-Mendoza, Mariana |
contributor_str_mv |
Recamonde-Mendoza, Mariana |
dc.subject.por.fl_str_mv |
COVID-19 Aprendizado de máquina Qualidade do sono |
topic |
COVID-19 Aprendizado de máquina Qualidade do sono Machine learning Interpretability Sleep quality Pandemic |
dc.subject.eng.fl_str_mv |
Machine learning Interpretability Sleep quality Pandemic |
description |
A pandemia de COVID-19 mudou a qualidade de vida globalmente, impactando aspec tos como a saúde mental e qualidade do sono. Apesar de já se saber que a qualidade do sono pode ser associada com experiências traumáticas, sintomas de ansiedade e de pressão, prática de atividades físicas e problemas econômicos e sociais, estudos mostram um efeito não-uniforme destes fatores na população durante a pandemia de COVID-19. Além disso, a maioria dos estudos abordou a temática através de análise estatística clás sica para investigar a associação entre qualidade do sono e covariáveis. Através de uma abordagem de aprendizado de máquina, este trabalho tem como objetivo avaliar as variá veis mais importantes para descrever qualidade do sono em três ondas de coleta de dados durante os primeiros seis meses de distanciamento social no Brasil. A amostra usada neste estudo é composta de 1559 voluntários que preencheram as três etapas de um ques tionário online, com questões divididas entre subgrupos (sociodemográficas, exposição ao COVID-19, veículos de informação, distanciamento social, proteção à saúde mental, variáveis de saúde mental, ansiedade, depressão e ideação suicida), originando 111 variá veis. Treinamos classificadores testando diferentes algoritmos de balanceamento (down sampling, SMOTE e sem balanceamento) e diferentes algoritmos de classificação (Naïve Bayes, Random Forest e Gradient Boosting Machine) através de um processo de valida ção cruzada. A explicabilidade dos modelos foi explorada usando o framework SHAP. Os melhores classificadores para cada onda foram treinados usando o algoritmo Naïve Bayes e o método de balanceamento downsampling. Os resultados para a onda 1 (W1) foram PR-AUC: 0.589, Sensibilidade (Sens): 0.726, Especificidade (Espec): 0.660; para a onda 2 (W2) foram PR-AUC: 0.586, Sens: 0.771, Espec: 0.628; para a onda 3 (W3) foram PR-AUC: 0.531, Sens: 0.836, Espec: 0.636. As variáveis mais importantes para as três ondas foram, de forma geral, relacionadas a sintomas de distúrbios de ansiedade (GAD) e sintomas de depressão (PHQ). Na W1, atividades de lazer e relacionamento familiar também foram relevantes para a predição de qualidade de sono. Os resultados da análise SHAP sugerem que na W1, um período próximo ao início de medidas de distanciamento social, a relação entre as variáveis foi mais complexa e variou significativamente entre os indivíduos, exceto para casos mais extremos onde sintomas de GAD e PHQ possuí- ram uma importância maior nas predições. Para W2 e W3, uma qualidade de sono boa e ruim foram mais diretamente relacionadas à baixa e alta prevalência, respectivamente, de sintomas de GAD e PHQ. Portanto, nossos resultados contribuem para a identifica ção das variáveis mais relevantes para predição de qualidade do sono durante a pandemia de COVID-19 e destacam como as associações entre as variáveis evoluíram durante um período de distanciamento social, indicando um cenário muito mais instável na W1 em comparação à W3. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-07-20T04:51:03Z |
dc.date.issued.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/243290 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001145191 |
url |
http://hdl.handle.net/10183/243290 |
identifier_str_mv |
001145191 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/243290/2/001145191.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/243290/1/001145191.pdf |
bitstream.checksum.fl_str_mv |
e8353987118057de0484ebd9fe4407c2 ee97844764c79dd40c85f3fef0ffe88c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224638290722816 |