Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/45/45132/tde-18042020-233747/ |
Resumo: | A tuberculose é uma doença que atinge cerca de 2 bilhões de pessoas em todo o mundo, com cerca de 10,4 milhões de novos casos a cada ano e 1,7 milhões de mortes. Apesar de ser uma doença que pode ser prevenida por vacina e curada através de tratamentos clínicos, sua taxa de incidência ainda é alta em alguns municípios do Brasil. Por ser uma doença de transmissão direta, é conhecida a influência de fatores socioeconômicos sobre a taxa de incidência. Motivados por esse panorama, o objetivo deste trabalho é propor uma metodologia para identificar e analisar relações entre dados socioeconômicos e de notificações da doença, utilizando técnicas de mineração de dados. Foram usados os bancos de dados da Fundação SEADE, IBGE e DATASUS relativos aos municípios do estado de São Paulo. Aos dados originais foram aplicados pré-processados com o uso de técnicas de imputação múltipla através do algoritmo Expectation Maximization com reamostragem; técnicas espaciais por meio do índice e o diagrama de Moran; discretização de valores contínuos e obtenção de padrões espaciais. Os municípios foram agrupados utilizando o algoritmo de agrupamento hierárquico exclusivo AGNES e os resultados validados com o uso do índice de Silhoutte e do coeficiente de correlação cophenético. Na etapa seguinte, o algoritmo APRIORI foi aplicado e extraídas regras de associações entre as variáveis. Os resultados obtidos por essa metodologia corroboram conhecimentos prévios sobre a doença e fatores socioeconômicos, tais como, IDHM, distância ao presídio, densidade de moradores por dormitório e despesas com saúde. No entanto, a análise espacial possibilitou a identificação de municípios que estão fora da lista de municípios de controle prioritário pelos órgãos de saúde, cujas taxas de incidência são crescentes assim como a de seus vizinhos. Esta pode ser uma indicação de um alerta para controles preventivos nessas localidades. A metodologia pode ser adaptada para inclusão ou substituição dos dados para tuberculose ou outra doença que tenha notificações no banco do DATASUS. |
id |
USP_ead46d8357983a9278f885fbffb0d080 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-18042020-233747 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São PauloMining applied to tuberculosis in São Paulo state municipalitiesAssociation rulesData miningMineração de dadosRegras de associaçãoTuberculoseTuberculosisA tuberculose é uma doença que atinge cerca de 2 bilhões de pessoas em todo o mundo, com cerca de 10,4 milhões de novos casos a cada ano e 1,7 milhões de mortes. Apesar de ser uma doença que pode ser prevenida por vacina e curada através de tratamentos clínicos, sua taxa de incidência ainda é alta em alguns municípios do Brasil. Por ser uma doença de transmissão direta, é conhecida a influência de fatores socioeconômicos sobre a taxa de incidência. Motivados por esse panorama, o objetivo deste trabalho é propor uma metodologia para identificar e analisar relações entre dados socioeconômicos e de notificações da doença, utilizando técnicas de mineração de dados. Foram usados os bancos de dados da Fundação SEADE, IBGE e DATASUS relativos aos municípios do estado de São Paulo. Aos dados originais foram aplicados pré-processados com o uso de técnicas de imputação múltipla através do algoritmo Expectation Maximization com reamostragem; técnicas espaciais por meio do índice e o diagrama de Moran; discretização de valores contínuos e obtenção de padrões espaciais. Os municípios foram agrupados utilizando o algoritmo de agrupamento hierárquico exclusivo AGNES e os resultados validados com o uso do índice de Silhoutte e do coeficiente de correlação cophenético. Na etapa seguinte, o algoritmo APRIORI foi aplicado e extraídas regras de associações entre as variáveis. Os resultados obtidos por essa metodologia corroboram conhecimentos prévios sobre a doença e fatores socioeconômicos, tais como, IDHM, distância ao presídio, densidade de moradores por dormitório e despesas com saúde. No entanto, a análise espacial possibilitou a identificação de municípios que estão fora da lista de municípios de controle prioritário pelos órgãos de saúde, cujas taxas de incidência são crescentes assim como a de seus vizinhos. Esta pode ser uma indicação de um alerta para controles preventivos nessas localidades. A metodologia pode ser adaptada para inclusão ou substituição dos dados para tuberculose ou outra doença que tenha notificações no banco do DATASUS.Tuberculosis is a disease that affects about 2 billion people worldwide, with about 10.4 million new cases each year and 1.7 million deaths. Despite being a disease that can be prevented by the vaccine and cured through clinical treatments, its incidence rate is still high in some municipalities in Brazil. As it is a disease of direct transmission, the influence of socioeconomic factors on the incidence rate is very well known. Motivated by this panorama, the objective of this work is to propose a methodology to identify and analyze relationships between socioeconomic data and disease reports, using data mining techniques. The SEADE, IBGE and DATASUS databases of the municipalities of the state of São Paulo were used. To the original data were applied pre-processing algorithms using multiple imputation techniques as the Expectation Maximization algorithm with boostrap; spatial techniques using the index and the Moran diagram; discretization of continuous values and identifications of spatial patterns. The municipalities were grouped using the exclusive hierarchical clustering algorithm AGNES and the results were validated using the Silhoutte index and the cophenetic correlation coeficient. In the next step, the APRIORI algorithm was applied and rules for associations between variables were extracted. The results obtained by this methodology corroborate previous knowledge about the disease and some socioeconomic factors, such as MHDI, distance to penitentiaries, density of residents per bedroom and health expenses. However, through spatial analysis, it has enabled the identification of municipalities that are outside the list of municipalities with priority control by health agencies, whose incidence rates are increasing as well as the incidences of their neighbors. This identification could anticipate preventive actions over these locations. The methodology can be adapted to include or replace data for tuberculosis or another disease that has been notified in the DATASUS database.Biblioteca Digitais de Teses e Dissertações da USPBevilacqua, Joyce da SilvaSantos, Erick Pereira2020-02-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45132/tde-18042020-233747/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-04-28T23:19:01Zoai:teses.usp.br:tde-18042020-233747Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-04-28T23:19:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo Mining applied to tuberculosis in São Paulo state municipalities |
title |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
spellingShingle |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo Santos, Erick Pereira Association rules Data mining Mineração de dados Regras de associação Tuberculose Tuberculosis |
title_short |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
title_full |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
title_fullStr |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
title_full_unstemmed |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
title_sort |
Mineração de dados aplicada à tuberculose nos municípios do Estado de São Paulo |
author |
Santos, Erick Pereira |
author_facet |
Santos, Erick Pereira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Bevilacqua, Joyce da Silva |
dc.contributor.author.fl_str_mv |
Santos, Erick Pereira |
dc.subject.por.fl_str_mv |
Association rules Data mining Mineração de dados Regras de associação Tuberculose Tuberculosis |
topic |
Association rules Data mining Mineração de dados Regras de associação Tuberculose Tuberculosis |
description |
A tuberculose é uma doença que atinge cerca de 2 bilhões de pessoas em todo o mundo, com cerca de 10,4 milhões de novos casos a cada ano e 1,7 milhões de mortes. Apesar de ser uma doença que pode ser prevenida por vacina e curada através de tratamentos clínicos, sua taxa de incidência ainda é alta em alguns municípios do Brasil. Por ser uma doença de transmissão direta, é conhecida a influência de fatores socioeconômicos sobre a taxa de incidência. Motivados por esse panorama, o objetivo deste trabalho é propor uma metodologia para identificar e analisar relações entre dados socioeconômicos e de notificações da doença, utilizando técnicas de mineração de dados. Foram usados os bancos de dados da Fundação SEADE, IBGE e DATASUS relativos aos municípios do estado de São Paulo. Aos dados originais foram aplicados pré-processados com o uso de técnicas de imputação múltipla através do algoritmo Expectation Maximization com reamostragem; técnicas espaciais por meio do índice e o diagrama de Moran; discretização de valores contínuos e obtenção de padrões espaciais. Os municípios foram agrupados utilizando o algoritmo de agrupamento hierárquico exclusivo AGNES e os resultados validados com o uso do índice de Silhoutte e do coeficiente de correlação cophenético. Na etapa seguinte, o algoritmo APRIORI foi aplicado e extraídas regras de associações entre as variáveis. Os resultados obtidos por essa metodologia corroboram conhecimentos prévios sobre a doença e fatores socioeconômicos, tais como, IDHM, distância ao presídio, densidade de moradores por dormitório e despesas com saúde. No entanto, a análise espacial possibilitou a identificação de municípios que estão fora da lista de municípios de controle prioritário pelos órgãos de saúde, cujas taxas de incidência são crescentes assim como a de seus vizinhos. Esta pode ser uma indicação de um alerta para controles preventivos nessas localidades. A metodologia pode ser adaptada para inclusão ou substituição dos dados para tuberculose ou outra doença que tenha notificações no banco do DATASUS. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-02-11 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45132/tde-18042020-233747/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45132/tde-18042020-233747/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257066420305920 |