Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/26678 |
Resumo: | The present work consists of a case study of dengue fever in Brasilia, carried out to explore data science tools to gain insights and discuss the difficulties that exist during a data manipulation process. In this way, data were extracted from official sources of public entities in Brazil on cases of dengue, climatic conditions, demographic censuses and on lending of funds destined to fight epidemiology, all regarding the city of Brasília and for the period of January from 2001 to December 2017. After the data extraction, a process of preparation of the data was necessary, due to inconsistencies found with respect to missing data or problems of granularity of time (some data are daily, other monthly, other annual). Afterwards, the variables were submitted to normality tests, and transformations were made in order to approximate those that did not pass the normal distribution tests. Thus, multiple linear regression models separated by season were constructed, which involved the cases of dengue and the climatic variables with their interactions, where, for summer and autumn, the resulting models were significant to explain the variations in dengue cases , whereas for spring and winter the models found are not sufficient to explain such variations. Analyzes were also carried out involving the transfer of funds and the total number of dengue cases, where it was concluded that, at some moments, the transfer of funds from the current year showed a positive correlation with the cases of dengue of the previous year. Finally, the effect of general characteristics of the population (age, sex and area of residence) was evaluated, trying to determine if these characteristics influence in a greater or lesser probability of contracting dengue. Throughout the work, difficulties encountered during the conduction of a data science analysis were discussed. |
id |
UFU_d88ecbb790db7062a2daaeadb70f2027 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/26678 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DFChallenges in dealing with messy data: a data science study about dengue fever in Brasília / DFCiência de DadosData ScienceModelosModelsRegressão LinearLinear RegressionProbabilidadeProbabilityDengueDengue feverClimaWeatherCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADASCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAOCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAOThe present work consists of a case study of dengue fever in Brasilia, carried out to explore data science tools to gain insights and discuss the difficulties that exist during a data manipulation process. In this way, data were extracted from official sources of public entities in Brazil on cases of dengue, climatic conditions, demographic censuses and on lending of funds destined to fight epidemiology, all regarding the city of Brasília and for the period of January from 2001 to December 2017. After the data extraction, a process of preparation of the data was necessary, due to inconsistencies found with respect to missing data or problems of granularity of time (some data are daily, other monthly, other annual). Afterwards, the variables were submitted to normality tests, and transformations were made in order to approximate those that did not pass the normal distribution tests. Thus, multiple linear regression models separated by season were constructed, which involved the cases of dengue and the climatic variables with their interactions, where, for summer and autumn, the resulting models were significant to explain the variations in dengue cases , whereas for spring and winter the models found are not sufficient to explain such variations. Analyzes were also carried out involving the transfer of funds and the total number of dengue cases, where it was concluded that, at some moments, the transfer of funds from the current year showed a positive correlation with the cases of dengue of the previous year. Finally, the effect of general characteristics of the population (age, sex and area of residence) was evaluated, trying to determine if these characteristics influence in a greater or lesser probability of contracting dengue. Throughout the work, difficulties encountered during the conduction of a data science analysis were discussed.Trabalho de Conclusão de Curso (Graduação)O presente trabalho consiste em um estudo de caso da dengue em Brasília, realizado com a finalidade de explorar ferramentas de ciência de dados para obter insights e discutir as dificuldades que existem durante um processo de manipulação de dados. Dessa maneira, foram extraídos dados de fontes oficiais de entidades públicas do Brasil sobre casos de dengue, sobre condições climáticas, sobre censos demográficos e sobre repasses de verbas destinadas ao combate de epidemiologias, todos a respeito da cidade de Brasília e para o período de janeiro de 2001 a dezembro de 2017. Após a extração dos dados, foi necessário um processo de preparação dos mesmos, em virtude de inconsistências encontradas com relação a dados faltantes ou problemas de granularidade de tempo (alguns dados são registros diários, outros mensais, outros anuais). Em seguida, as variáveis foram submetidas a testes de normalidade, e transformações foram feitas buscando aproximar aquelas que não passaram nos testes da distribuição normal. Com isso, foram construídos modelos de regressão linear múltipla separados por estação, que envolveram os casos de dengue e as variáveis climáticas com suas interações, onde, para o verão e o outono, os modelos resultantes foram significantes para explicar as variações nos casos de dengue, enquanto que, para a primavera e o inverno, os modelos encontrados não são suficientes para explicar tais variações. Foram feitas também análises envolvendo o repasse de verbas e o total de casos de dengue, onde se concluiu que, em alguns momentos, o repasse de verbas do ano corrente apresentou uma correlação positiva com os casos de dengue do ano anterior. Por fim, avaliou-se o efeito de características gerais da população (faixa etária, sexo e zona de residência), buscando determinar se tais características influenciam em uma maior ou menor probabilidade de se contrair dengue. Ao longo de todo o trabalho, foram discutidas dificuldades encontradas durante a condução de uma análise de ciência de dados.Universidade Federal de UberlândiaBrasilEngenharia da ComputaçãoPeretta, Igor Santoshttp://lattes.cnpq.br/6826511824160198Santos, Igor Perettahttp://lattes.cnpq.br/6826511824160198Sousa, Marcelo Rodrigues dehttp://lattes.cnpq.br/187745766031556Cunha, Márcio José dahttp://lattes.cnpq.br/5012626154282569Nascimento, João Paulo Cândido2019-08-13T20:06:00Z2019-08-13T20:06:00Z2019-07-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfNASCIMENTO, João Paulo Cândido. Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF. 2019. 55 f. Trabalho de conclusão de curso (Graduação em Engenharia de Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019.https://repositorio.ufu.br/handle/123456789/26678porhttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2020-02-14T14:10:17Zoai:repositorio.ufu.br:123456789/26678Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2020-02-14T14:10:17Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF Challenges in dealing with messy data: a data science study about dengue fever in Brasília / DF |
title |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
spellingShingle |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF Nascimento, João Paulo Cândido Ciência de Dados Data Science Modelos Models Regressão Linear Linear Regression Probabilidade Probability Dengue Dengue fever Clima Weather CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
title_short |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
title_full |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
title_fullStr |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
title_full_unstemmed |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
title_sort |
Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF |
author |
Nascimento, João Paulo Cândido |
author_facet |
Nascimento, João Paulo Cândido |
author_role |
author |
dc.contributor.none.fl_str_mv |
Peretta, Igor Santos http://lattes.cnpq.br/6826511824160198 Santos, Igor Peretta http://lattes.cnpq.br/6826511824160198 Sousa, Marcelo Rodrigues de http://lattes.cnpq.br/187745766031556 Cunha, Márcio José da http://lattes.cnpq.br/5012626154282569 |
dc.contributor.author.fl_str_mv |
Nascimento, João Paulo Cândido |
dc.subject.por.fl_str_mv |
Ciência de Dados Data Science Modelos Models Regressão Linear Linear Regression Probabilidade Probability Dengue Dengue fever Clima Weather CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
topic |
Ciência de Dados Data Science Modelos Models Regressão Linear Linear Regression Probabilidade Probability Dengue Dengue fever Clima Weather CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO |
description |
The present work consists of a case study of dengue fever in Brasilia, carried out to explore data science tools to gain insights and discuss the difficulties that exist during a data manipulation process. In this way, data were extracted from official sources of public entities in Brazil on cases of dengue, climatic conditions, demographic censuses and on lending of funds destined to fight epidemiology, all regarding the city of Brasília and for the period of January from 2001 to December 2017. After the data extraction, a process of preparation of the data was necessary, due to inconsistencies found with respect to missing data or problems of granularity of time (some data are daily, other monthly, other annual). Afterwards, the variables were submitted to normality tests, and transformations were made in order to approximate those that did not pass the normal distribution tests. Thus, multiple linear regression models separated by season were constructed, which involved the cases of dengue and the climatic variables with their interactions, where, for summer and autumn, the resulting models were significant to explain the variations in dengue cases , whereas for spring and winter the models found are not sufficient to explain such variations. Analyzes were also carried out involving the transfer of funds and the total number of dengue cases, where it was concluded that, at some moments, the transfer of funds from the current year showed a positive correlation with the cases of dengue of the previous year. Finally, the effect of general characteristics of the population (age, sex and area of residence) was evaluated, trying to determine if these characteristics influence in a greater or lesser probability of contracting dengue. Throughout the work, difficulties encountered during the conduction of a data science analysis were discussed. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-08-13T20:06:00Z 2019-08-13T20:06:00Z 2019-07-05 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
NASCIMENTO, João Paulo Cândido. Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF. 2019. 55 f. Trabalho de conclusão de curso (Graduação em Engenharia de Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. https://repositorio.ufu.br/handle/123456789/26678 |
identifier_str_mv |
NASCIMENTO, João Paulo Cândido. Os desafios em lidar com dados problemáticos: um estudo em ciência de dados sobre a dengue em Brasília/DF. 2019. 55 f. Trabalho de conclusão de curso (Graduação em Engenharia de Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. |
url |
https://repositorio.ufu.br/handle/123456789/26678 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Engenharia da Computação |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Engenharia da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1813711309003292672 |