Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/ |
Resumo: | A crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas. |
id |
USP_c4909f83278b2d2c52b7b6a64a0712e3 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-12072024-071217 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.Untitled in englishCausal inferenceCausalidadeInteligência estatísticaObservational dataOpen sourceSoftware livreA crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas.The increasing prevalence of machine learning algorithms has brought remarkable advancements in various fields of knowledge. These progressions are driven by the expansion of data collection, storage, and processing capabilities. However, as machine learning methods continue to evolve and find new applications, a fundamental and often overlooked question arises: whether there is only a correlation between variables or if they have a causal relationship. The need to answer the what if?question becomes increasingly urgent. In this context, causal inference techniques, such as those used in randomized controlled experiments, play a fundamental role in obtaining reliable insights. However, these randomized controlled experiments face challenges such as high costs and extended duration, while observational data (collected without deliberate manipulation) are a viable alternative but come with their own complexities, such as the lack of control over the applied treatment. The issue of counterfactuals, involving considering What if an alternative action had been taken instead of the one observed?becomes central in causal inference. In this research, a review of causality and causal inference concepts was conducted, followed by a detailed comparison between the Neyman-Rubin and Pearl causal modeling frameworks. Building upon the Neyman-Rubin framework, the theory behind the main models used in causal inference from observational data was reviewed. Another contribution of this research was the development of Pycausal-explorer, an open-source Python library that not only implements the models described and analyzed in this text but also allows integration with scikit-learn, one of the leading machine learning libraries in Python. With this, it is expected to promote the understanding and application of these models in observational data analysis in various fields, providing valuable insights based on more robust and solid cause-and-effect relationships.Biblioteca Digitais de Teses e Dissertações da USPLopes, Roseli de DeusEscudero, Guilherme Goto2024-02-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-07-15T11:02:02Zoai:teses.usp.br:tde-12072024-071217Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-07-15T11:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. Untitled in english |
title |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
spellingShingle |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. Escudero, Guilherme Goto Causal inference Causalidade Inteligência estatística Observational data Open source Software livre |
title_short |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
title_full |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
title_fullStr |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
title_full_unstemmed |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
title_sort |
Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais. |
author |
Escudero, Guilherme Goto |
author_facet |
Escudero, Guilherme Goto |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes, Roseli de Deus |
dc.contributor.author.fl_str_mv |
Escudero, Guilherme Goto |
dc.subject.por.fl_str_mv |
Causal inference Causalidade Inteligência estatística Observational data Open source Software livre |
topic |
Causal inference Causalidade Inteligência estatística Observational data Open source Software livre |
description |
A crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-02-01 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256900250370048 |