Heterogeneous ensemble models for in-Hospital Mortality Prediction

Grawe, Mattyws Ferreira

Heterogeneous ensemble models for in-Hospital Mortality Prediction

Detalhes bibliográficos
Autor(a) principal:	Grawe, Mattyws Ferreira
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/235925
Resumo:	Com o crescimento da adoção de prontuários eletrônicos, e da acessibilidade da comunidade a esses dados, a área de aprendizado de máquina está fazendo o uso desses dados para a solução de uma vasta gama de problemas. Esses dados são ricos e complexos, e contam com uma diversidade grande de tipos de dados, como dados estruturados (e.g., dados demográficos), texto livre (e.g., exames e prontuário médico) e dados temporais (e.g., medições de sinais vitais). Neste trabalho, buscamos explorar essa diversidade de tipos de dados para a tarefa de predição de mortalidade durante a estadia no hospital. Mais especificamente, usando apenas a janela das primeiras 48h de estadía do paciente. Contruímos diversos modelos de classificação para essa tarefa - incluindo LSTM, TCN e Logistic Regression - para cada tipo de dado existente na nossa base de dados, aplicando algoritmos do estado-da-arte da área de deep learning. Usando o resultado da classifica ção obtido por esses modelos, modelos ensemble foram treinados. Com isso, é possível avaliar se esses modelos conseguem tentar melhorar qualidade da classificação. Nossos experimentos usaram um conjunto de mais de 20mil estadias em UTIs presente na base de dados MIMIC-III, e mostramos que o uso de ensemble melhora a performance final em 3 pontos percentuais, conseguindo um melhor resultado de AUROC de 0,853 (95% IC [0,846; 0,861]), um TP Rate de 0.800, e um weighted F-Score de 0.795.

Metadados do item

id	URGS_88ace49bb893f2f04e684817d40b2a54
oai_identifier_str	oai:www.lume.ufrgs.br:10183/235925
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Grawe, Mattyws FerreiraMoreira, Viviane Pereira2022-03-15T04:33:36Z2021http://hdl.handle.net/10183/235925001138053Com o crescimento da adoção de prontuários eletrônicos, e da acessibilidade da comunidade a esses dados, a área de aprendizado de máquina está fazendo o uso desses dados para a solução de uma vasta gama de problemas. Esses dados são ricos e complexos, e contam com uma diversidade grande de tipos de dados, como dados estruturados (e.g., dados demográficos), texto livre (e.g., exames e prontuário médico) e dados temporais (e.g., medições de sinais vitais). Neste trabalho, buscamos explorar essa diversidade de tipos de dados para a tarefa de predição de mortalidade durante a estadia no hospital. Mais especificamente, usando apenas a janela das primeiras 48h de estadía do paciente. Contruímos diversos modelos de classificação para essa tarefa - incluindo LSTM, TCN e Logistic Regression - para cada tipo de dado existente na nossa base de dados, aplicando algoritmos do estado-da-arte da área de deep learning. Usando o resultado da classifica ção obtido por esses modelos, modelos ensemble foram treinados. Com isso, é possível avaliar se esses modelos conseguem tentar melhorar qualidade da classificação. Nossos experimentos usaram um conjunto de mais de 20mil estadias em UTIs presente na base de dados MIMIC-III, e mostramos que o uso de ensemble melhora a performance final em 3 pontos percentuais, conseguindo um melhor resultado de AUROC de 0,853 (95% IC [0,846; 0,861]), um TP Rate de 0.800, e um weighted F-Score de 0.795.The use of Electronic Health Records data have extensively grown as they become more accessible. In machine learning, they are used as input for a large array of problems, as the records are rich and contain different types of variables, including structured data (e.g., demographics), free text (e.g., medical notes), and time series data. In this work, we explore the use of these different types of data for the task of in-hospital mortality prediction, which seeks to predict the outcome of death for patients admitted at the hos pital. We built several machine learning models, - such as LSTM, TCN, and Logistic Regression for each data type, and combine them into a heterogeneous ensemble model using the stacking strategy. By applying deep learning algorithms of the state-of-the-art in classification tasks and using their predictions as a new representation for our data we could assess whether the classifier ensemble can leverage information extracted from models trained with different data types. Our experiments on a set of 20K ICU stays from the MIMIC-III dataset have shown that the ensemble method brings an increase of three percentage points, achieving an AUROC of 0.853 (95% CI [0.846,0.861]), a TP Rate of 0.800, and a weighted F-Score of 0.795.application/pdfengAprendizado de máquinaMineração de dadosAlgoritmosMortality predictionData typesMachine learningEnsembleTime-seriesHeterogeneous ensemble models for in-Hospital Mortality Predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001138053.pdf.txt001138053.pdf.txtExtracted Texttext/plain117536http://www.lume.ufrgs.br/bitstream/10183/235925/2/001138053.pdf.txta7fe5976aecb289c46dac77faca6c6beMD52ORIGINAL001138053.pdfTexto completo (inglês)application/pdf1547190http://www.lume.ufrgs.br/bitstream/10183/235925/1/001138053.pdfde2c038ca999d8d39e462f2786c39d47MD5110183/2359252022-03-26 05:06:08.821731oai:www.lume.ufrgs.br:10183/235925Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532022-03-26T08:06:08Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Heterogeneous ensemble models for in-Hospital Mortality Prediction
title	Heterogeneous ensemble models for in-Hospital Mortality Prediction
spellingShingle	Heterogeneous ensemble models for in-Hospital Mortality Prediction Grawe, Mattyws Ferreira Aprendizado de máquina Mineração de dados Algoritmos Mortality prediction Data types Machine learning Ensemble Time-series
title_short	Heterogeneous ensemble models for in-Hospital Mortality Prediction
title_full	Heterogeneous ensemble models for in-Hospital Mortality Prediction
title_fullStr	Heterogeneous ensemble models for in-Hospital Mortality Prediction
title_full_unstemmed	Heterogeneous ensemble models for in-Hospital Mortality Prediction
title_sort	Heterogeneous ensemble models for in-Hospital Mortality Prediction
author	Grawe, Mattyws Ferreira
author_facet	Grawe, Mattyws Ferreira
author_role	author
dc.contributor.author.fl_str_mv	Grawe, Mattyws Ferreira
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Aprendizado de máquina Mineração de dados Algoritmos
topic	Aprendizado de máquina Mineração de dados Algoritmos Mortality prediction Data types Machine learning Ensemble Time-series
dc.subject.eng.fl_str_mv	Mortality prediction Data types Machine learning Ensemble Time-series
description	Com o crescimento da adoção de prontuários eletrônicos, e da acessibilidade da comunidade a esses dados, a área de aprendizado de máquina está fazendo o uso desses dados para a solução de uma vasta gama de problemas. Esses dados são ricos e complexos, e contam com uma diversidade grande de tipos de dados, como dados estruturados (e.g., dados demográficos), texto livre (e.g., exames e prontuário médico) e dados temporais (e.g., medições de sinais vitais). Neste trabalho, buscamos explorar essa diversidade de tipos de dados para a tarefa de predição de mortalidade durante a estadia no hospital. Mais especificamente, usando apenas a janela das primeiras 48h de estadía do paciente. Contruímos diversos modelos de classificação para essa tarefa - incluindo LSTM, TCN e Logistic Regression - para cada tipo de dado existente na nossa base de dados, aplicando algoritmos do estado-da-arte da área de deep learning. Usando o resultado da classifica ção obtido por esses modelos, modelos ensemble foram treinados. Com isso, é possível avaliar se esses modelos conseguem tentar melhorar qualidade da classificação. Nossos experimentos usaram um conjunto de mais de 20mil estadias em UTIs presente na base de dados MIMIC-III, e mostramos que o uso de ensemble melhora a performance final em 3 pontos percentuais, conseguindo um melhor resultado de AUROC de 0,853 (95% IC [0,846; 0,861]), um TP Rate de 0.800, e um weighted F-Score de 0.795.
publishDate	2021
dc.date.issued.fl_str_mv	2021
dc.date.accessioned.fl_str_mv	2022-03-15T04:33:36Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/235925
dc.identifier.nrb.pt_BR.fl_str_mv	001138053
url	http://hdl.handle.net/10183/235925
identifier_str_mv	001138053
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/235925/2/001138053.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/235925/1/001138053.pdf
bitstream.checksum.fl_str_mv	a7fe5976aecb289c46dac77faca6c6be de2c038ca999d8d39e462f2786c39d47
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085579092656128

Heterogeneous ensemble models for in-Hospital Mortality Prediction

Registros relacionados