Ciência de dados, poluição do ar e saúde

Detalhes bibliográficos
Autor(a) principal: Amorim, William Nilson de
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45133/tde-30052019-145057/
Resumo: A Estatística é uma ferramenta imprescindível para a aplicação do método científico, estando presente em todos os campos de pesquisa. As metodologias estatísticas usuais estão bem estabelecidas entre os pesquisadores das mais diversas áreas, sendo que a análise de dados em muitos trabalhos costuma ser feita pelos próprios autores. Nos últimos anos, a área conhecida como Ciência de Dados vem exigindo de estatísticos e não-estatísticos habilidades que vão muito além de modelagem, começando na obtenção e estruturação das bases de dados e terminando na divulgação dos resultados. Dentro dela, uma abordagem chamada de aprendizado automático reuniu diversas técnicas e estratégias para modelagem preditiva, que, com alguns cuidados, podem ser aplicadas também para inferência. Essas novas visões da Estatística foram pouco absorvidas pela comunidade científica até então, principalmente pela ausência de estatísticos em grande parte dos estudos. Embora pesquisa de base em Probabilidade e Estatística seja importante para o desenvolvimento de novas metodologias, a criação de pontes entre essas disciplinas e suas áreas de aplicação é essencial para o avanço da ciência. O objetivo desta tese é aproximar a ciência de dados, discutindo metodologias novas e usuais, da área de pesquisa em poluição do ar, que, segundo a Organização Mundial da Saúde, é o maior risco ambiental à saúde humana. Para isso, apresentaremos diversas estratégias de análise e as aplicaremos em dados reais de poluição do ar. Os problemas utilizados como exemplo foram o estudo realizado por Salvo et al. (2017), cujo objetivo foi associar a proporção de carros rodando a gasolina com a concentração de ozônio na cidade de São Paulo, e uma extensão desse trabalho, na qual analisamos o efeito do uso de gasolina/etanol na mortalidade de idosos e crianças. Concluímos que suposições como linearidade a aditividade, feitas por alguns modelos usuais, podem ser muito restritivas para problemas essencialmente complexos, com diferentes modelos levando a diferentes conclusões, nem sempre sendo fácil identificar qual delas é a mais apropriada.
id USP_07d801fab238a7ca840235639083c77a
oai_identifier_str oai:teses.usp.br:tde-30052019-145057
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Ciência de dados, poluição do ar e saúdeData science, air pollution and healthAir pollutionAprendizado automáticoCiência de dadosData scienceHealthInferenceInferênciaMachine learningPoluição do arRegressãoRegresssionSaúdeA Estatística é uma ferramenta imprescindível para a aplicação do método científico, estando presente em todos os campos de pesquisa. As metodologias estatísticas usuais estão bem estabelecidas entre os pesquisadores das mais diversas áreas, sendo que a análise de dados em muitos trabalhos costuma ser feita pelos próprios autores. Nos últimos anos, a área conhecida como Ciência de Dados vem exigindo de estatísticos e não-estatísticos habilidades que vão muito além de modelagem, começando na obtenção e estruturação das bases de dados e terminando na divulgação dos resultados. Dentro dela, uma abordagem chamada de aprendizado automático reuniu diversas técnicas e estratégias para modelagem preditiva, que, com alguns cuidados, podem ser aplicadas também para inferência. Essas novas visões da Estatística foram pouco absorvidas pela comunidade científica até então, principalmente pela ausência de estatísticos em grande parte dos estudos. Embora pesquisa de base em Probabilidade e Estatística seja importante para o desenvolvimento de novas metodologias, a criação de pontes entre essas disciplinas e suas áreas de aplicação é essencial para o avanço da ciência. O objetivo desta tese é aproximar a ciência de dados, discutindo metodologias novas e usuais, da área de pesquisa em poluição do ar, que, segundo a Organização Mundial da Saúde, é o maior risco ambiental à saúde humana. Para isso, apresentaremos diversas estratégias de análise e as aplicaremos em dados reais de poluição do ar. Os problemas utilizados como exemplo foram o estudo realizado por Salvo et al. (2017), cujo objetivo foi associar a proporção de carros rodando a gasolina com a concentração de ozônio na cidade de São Paulo, e uma extensão desse trabalho, na qual analisamos o efeito do uso de gasolina/etanol na mortalidade de idosos e crianças. Concluímos que suposições como linearidade a aditividade, feitas por alguns modelos usuais, podem ser muito restritivas para problemas essencialmente complexos, com diferentes modelos levando a diferentes conclusões, nem sempre sendo fácil identificar qual delas é a mais apropriada.Statistics is a fundamental part of the scientific method and it is present in all the research fields. The usual statistical techniques are well established in the scientific community, and, regardless of the area, the authors themselves perform the data analysis in most papers. In the last years, the area known as Data Science has been challenging statisticians and non-statisticians to perform tasks beyond data modeling. It starts with importing, organizing and manipulating the databases, and ends with the proper communication of the results. Another area called Machine Learning created a framework to fit predictive models, where the goal is to obtain the most precise predictions to a variable under study. These new approaches were not completely adopted by the scientific community yet, mainly due to the absence of statisticians in most of the studies. Although basic research in Probabilities and Statistics is important, the link between these disciplines and their application areas is essential for the advancement of science. The goal of this thesis was to bring together the news views of Data Science and Machine Learning and air pollution research. We presented several strategies of data analysis and apply them to reanalyze the real world air pollution problem presented by Salvo et al. (2017) explore the association between ozone concentration and the proportion of bi-fuel vehicles running on gasoline in the city of São Paulo, Brazil. We also extended this analysis to study the effect of using gasoline/ethanol in mortality (child and elderly). We concluded that assumptions such as linearity and additivity, commonly required by usual models, can be very restrictive to intrinsically complex problems, leading to different conclusions for each fitted model, with little information about which one is more appropriate.Biblioteca Digitais de Teses e Dissertações da USPLima, Antonio Carlos Pedroso deAmorim, William Nilson de2019-05-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45133/tde-30052019-145057/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-19T12:04:02Zoai:teses.usp.br:tde-30052019-145057Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-19T12:04:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Ciência de dados, poluição do ar e saúde
Data science, air pollution and health
title Ciência de dados, poluição do ar e saúde
spellingShingle Ciência de dados, poluição do ar e saúde
Amorim, William Nilson de
Air pollution
Aprendizado automático
Ciência de dados
Data science
Health
Inference
Inferência
Machine learning
Poluição do ar
Regressão
Regresssion
Saúde
title_short Ciência de dados, poluição do ar e saúde
title_full Ciência de dados, poluição do ar e saúde
title_fullStr Ciência de dados, poluição do ar e saúde
title_full_unstemmed Ciência de dados, poluição do ar e saúde
title_sort Ciência de dados, poluição do ar e saúde
author Amorim, William Nilson de
author_facet Amorim, William Nilson de
author_role author
dc.contributor.none.fl_str_mv Lima, Antonio Carlos Pedroso de
dc.contributor.author.fl_str_mv Amorim, William Nilson de
dc.subject.por.fl_str_mv Air pollution
Aprendizado automático
Ciência de dados
Data science
Health
Inference
Inferência
Machine learning
Poluição do ar
Regressão
Regresssion
Saúde
topic Air pollution
Aprendizado automático
Ciência de dados
Data science
Health
Inference
Inferência
Machine learning
Poluição do ar
Regressão
Regresssion
Saúde
description A Estatística é uma ferramenta imprescindível para a aplicação do método científico, estando presente em todos os campos de pesquisa. As metodologias estatísticas usuais estão bem estabelecidas entre os pesquisadores das mais diversas áreas, sendo que a análise de dados em muitos trabalhos costuma ser feita pelos próprios autores. Nos últimos anos, a área conhecida como Ciência de Dados vem exigindo de estatísticos e não-estatísticos habilidades que vão muito além de modelagem, começando na obtenção e estruturação das bases de dados e terminando na divulgação dos resultados. Dentro dela, uma abordagem chamada de aprendizado automático reuniu diversas técnicas e estratégias para modelagem preditiva, que, com alguns cuidados, podem ser aplicadas também para inferência. Essas novas visões da Estatística foram pouco absorvidas pela comunidade científica até então, principalmente pela ausência de estatísticos em grande parte dos estudos. Embora pesquisa de base em Probabilidade e Estatística seja importante para o desenvolvimento de novas metodologias, a criação de pontes entre essas disciplinas e suas áreas de aplicação é essencial para o avanço da ciência. O objetivo desta tese é aproximar a ciência de dados, discutindo metodologias novas e usuais, da área de pesquisa em poluição do ar, que, segundo a Organização Mundial da Saúde, é o maior risco ambiental à saúde humana. Para isso, apresentaremos diversas estratégias de análise e as aplicaremos em dados reais de poluição do ar. Os problemas utilizados como exemplo foram o estudo realizado por Salvo et al. (2017), cujo objetivo foi associar a proporção de carros rodando a gasolina com a concentração de ozônio na cidade de São Paulo, e uma extensão desse trabalho, na qual analisamos o efeito do uso de gasolina/etanol na mortalidade de idosos e crianças. Concluímos que suposições como linearidade a aditividade, feitas por alguns modelos usuais, podem ser muito restritivas para problemas essencialmente complexos, com diferentes modelos levando a diferentes conclusões, nem sempre sendo fácil identificar qual delas é a mais apropriada.
publishDate 2019
dc.date.none.fl_str_mv 2019-05-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45133/tde-30052019-145057/
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-30052019-145057/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257501166206976