Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil

Detalhes bibliográficos
Autor(a) principal: Hellen Geremias dos Santos
Data de Publicação: 2019
Outros Autores: Carla Ferreira do Nascimento, Rafael Izbicki, Yeda Aparecida de Oliveira Duarte, Alexandre Dias Porto Chiavegatto Filho
Tipo de documento: Artigo
Idioma: por
Título da fonte: Cadernos de Saúde Pública
Texto Completo: https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978
Resumo: This study aims to present the stages related to the use of machine learning algorithms for predictive analyses in health. An application was performed in a database of elderly residents in the city of São Paulo, Brazil, who participated in the Health, Well-Being, and Aging Study (SABE) (n = 2,808). The outcome variable was the occurrence of death within five years of the elder’s entry into the study (n = 423), and the predictors were 37 variables related to the elder’s demographic, socioeconomic, and health profile. The application was organized according to the following stages: division of data in training (70%) and testing (30%), pre-processing of the predictors, learning, and assessment of the models. The learning stage used 5 algorithms to adjust the models: logistic regression with and without penalization, neural networks, gradient boosted trees, and random forest. The algorithms’ hyperparameters were optimized by 10-fold cross-validation to select those corresponding to the best models. For each algorithm, the best model was assessed in test data via area under the ROC curve (AUC) and related measures. All the models presented AUC ROC greater than 0.70. For the three models with the highest AUC ROC (neural networks and logistic regression with LASSO penalization and without penalization, respectively), quality measures of the predicted probability were also assessed. The expectation is that with the increased availability of data and trained human capital, it will be possible to develop predictive machine learning models with the potential to help health professionals make the best decisions.
id FIOCRUZ-5_8d993b896d3d3ec7df76a429fe6de0e8
oai_identifier_str oai:ojs.teste-cadernos.ensp.fiocruz.br:article/6978
network_acronym_str FIOCRUZ-5
network_name_str Cadernos de Saúde Pública
repository_id_str
spelling Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, BrasilPrevisõesMortalidadeIdosoThis study aims to present the stages related to the use of machine learning algorithms for predictive analyses in health. An application was performed in a database of elderly residents in the city of São Paulo, Brazil, who participated in the Health, Well-Being, and Aging Study (SABE) (n = 2,808). The outcome variable was the occurrence of death within five years of the elder’s entry into the study (n = 423), and the predictors were 37 variables related to the elder’s demographic, socioeconomic, and health profile. The application was organized according to the following stages: division of data in training (70%) and testing (30%), pre-processing of the predictors, learning, and assessment of the models. The learning stage used 5 algorithms to adjust the models: logistic regression with and without penalization, neural networks, gradient boosted trees, and random forest. The algorithms’ hyperparameters were optimized by 10-fold cross-validation to select those corresponding to the best models. For each algorithm, the best model was assessed in test data via area under the ROC curve (AUC) and related measures. All the models presented AUC ROC greater than 0.70. For the three models with the highest AUC ROC (neural networks and logistic regression with LASSO penalization and without penalization, respectively), quality measures of the predicted probability were also assessed. The expectation is that with the increased availability of data and trained human capital, it will be possible to develop predictive machine learning models with the potential to help health professionals make the best decisions.El objetivo de este estudio fue presentar las etapas relacionadas con la utilización de algoritmos de machine learning para análisis predictivos en salud. Para tal fin, se realizó una aplicación en base a datos de ancianos residentes en el Municipio de São Paulo, Brasil, participantes en el estudio Salud Bienestar y Envejecimiento (SABE) (n = 2.808). La variable respuesta se representó mediante la ocurrencia de óbito en hasta 5 años tras la inclusión del anciano en el estudio (n = 423), y los predictores fueron representados por 37 variables relacionadas con el perfil demográfico, socioeconómico y de salud del anciano. El aplicación se organizó según las siguientes etapas: división de los datos en formación (70%) y test (30%), pre-procesamiento de los predictores, aprendizaje y evaluación de modelos. En la etapa de aprendizaje, se utilizaron cinco algoritmos para el ajuste de modelos: regresión logística con y sin penalización, redes neuronales, gradient boosted trees y random forest. Los hiperparámetros de los algoritmos se optimizaron mediante una validación cruzada 10-fold, para seleccionar aquellos correspondientes a los mejores modelos. Para cada algoritmo, el mejor modelo se evaluó con datos de la prueba del área debajo de la curva (AUC) ROC y medidas relacionadas. Todos los modelos presentaron AUC ROC superior a 0,70. Para los tres modelos con mayor AUC ROC (redes neuronales y regresión logística con penalización de Lasso y sin penalización, respectivamente) también se evaluaron medidas de calidad de la probabilidad pronosticada. Se espera que, con el aumento de la disponibilidad de datos y de capital humano capacitado, sea posible desarrollar modelos predictivos de machine learning con potencial para ayudar a profesionales de salud en la toma de mejores decisiones.Este estudo objetiva apresentar as etapas relacionadas à utilização de algoritmos de machine learning para análises preditivas em saúde. Para isso, foi realizada uma aplicação com base em dados de idosos residentes no Município de São Paulo, Brasil, participantes do estudo Saúde Bem-estar e Envelhecimento (SABE) (n = 2.808). A variável resposta foi representada pela ocorrência de óbito em até cinco anos após o ingresso do idoso no estudo (n = 423), e os preditores, por 37 variáveis relacionadas ao perfil demográfico, socioeconômico e de saúde do idoso. A aplicação foi organizada de acordo com as seguintes etapas: divisão dos dados em treinamento (70%) e teste (30%), pré-processamento dos preditores, aprendizado e avaliação de modelos. Na etapa de aprendizado, foram utilizados cinco algoritmos para o ajuste de modelos: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest. Os hiperparâmetros dos algoritmos foram otimizados por validação cruzada 10-fold, para selecionar aqueles correspondentes aos melhores modelos. Para cada algoritmo, o melhor modelo foi avaliado em dados de teste por meio da área abaixo da curva (AUC) ROC e medidas relacionadas. Todos os modelos apresentaram AUC ROC superior a 0,70. Para os três modelos com maior AUC ROC (redes neurais e regressão logística com penalização de lasso e sem penalização, respectivamente), foram também avaliadas medidas de qualidade da probabilidade predita. Espera-se que, com o aumento da disponibilidade de dados e de capital humano capacitado, seja possível desenvolver modelos preditivos de machine learning com potencial para auxiliar profissionais de saúde na tomada de melhores decisões.Reports in Public HealthCadernos de Saúde Pública2019-07-29info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlapplication/pdfhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978Reports in Public Health; Vol. 35 No. 7 (2019): JulyCadernos de Saúde Pública; v. 35 n. 7 (2019): Julho1678-44640102-311Xreponame:Cadernos de Saúde Públicainstname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZporhttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978/15176https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978/15177Hellen Geremias dos SantosCarla Ferreira do NascimentoRafael IzbickiYeda Aparecida de Oliveira DuarteAlexandre Dias Porto Chiavegatto Filhoinfo:eu-repo/semantics/openAccess2024-03-06T15:29:38Zoai:ojs.teste-cadernos.ensp.fiocruz.br:article/6978Revistahttps://cadernos.ensp.fiocruz.br/ojs/index.php/csphttps://cadernos.ensp.fiocruz.br/ojs/index.php/csp/oaicadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br1678-44640102-311Xopendoar:2024-03-06T13:07:59.945419Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)true
dc.title.none.fl_str_mv Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
title Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
spellingShingle Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
Hellen Geremias dos Santos
Previsões
Mortalidade
Idoso
title_short Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
title_full Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
title_fullStr Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
title_full_unstemmed Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
title_sort Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
author Hellen Geremias dos Santos
author_facet Hellen Geremias dos Santos
Carla Ferreira do Nascimento
Rafael Izbicki
Yeda Aparecida de Oliveira Duarte
Alexandre Dias Porto Chiavegatto Filho
author_role author
author2 Carla Ferreira do Nascimento
Rafael Izbicki
Yeda Aparecida de Oliveira Duarte
Alexandre Dias Porto Chiavegatto Filho
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Hellen Geremias dos Santos
Carla Ferreira do Nascimento
Rafael Izbicki
Yeda Aparecida de Oliveira Duarte
Alexandre Dias Porto Chiavegatto Filho
dc.subject.por.fl_str_mv Previsões
Mortalidade
Idoso
topic Previsões
Mortalidade
Idoso
description This study aims to present the stages related to the use of machine learning algorithms for predictive analyses in health. An application was performed in a database of elderly residents in the city of São Paulo, Brazil, who participated in the Health, Well-Being, and Aging Study (SABE) (n = 2,808). The outcome variable was the occurrence of death within five years of the elder’s entry into the study (n = 423), and the predictors were 37 variables related to the elder’s demographic, socioeconomic, and health profile. The application was organized according to the following stages: division of data in training (70%) and testing (30%), pre-processing of the predictors, learning, and assessment of the models. The learning stage used 5 algorithms to adjust the models: logistic regression with and without penalization, neural networks, gradient boosted trees, and random forest. The algorithms’ hyperparameters were optimized by 10-fold cross-validation to select those corresponding to the best models. For each algorithm, the best model was assessed in test data via area under the ROC curve (AUC) and related measures. All the models presented AUC ROC greater than 0.70. For the three models with the highest AUC ROC (neural networks and logistic regression with LASSO penalization and without penalization, respectively), quality measures of the predicted probability were also assessed. The expectation is that with the increased availability of data and trained human capital, it will be possible to develop predictive machine learning models with the potential to help health professionals make the best decisions.
publishDate 2019
dc.date.none.fl_str_mv 2019-07-29
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978
url https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978/15176
https://cadernos.ensp.fiocruz.br/ojs/index.php/csp/article/view/6978/15177
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
application/pdf
dc.publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
publisher.none.fl_str_mv Reports in Public Health
Cadernos de Saúde Pública
dc.source.none.fl_str_mv Reports in Public Health; Vol. 35 No. 7 (2019): July
Cadernos de Saúde Pública; v. 35 n. 7 (2019): Julho
1678-4464
0102-311X
reponame:Cadernos de Saúde Pública
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Cadernos de Saúde Pública
collection Cadernos de Saúde Pública
repository.name.fl_str_mv Cadernos de Saúde Pública - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv cadernos@ensp.fiocruz.br||cadernos@ensp.fiocruz.br
_version_ 1798943388174647296