Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.

Detalhes bibliográficos
Autor(a) principal: Escudero, Guilherme Goto
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/
Resumo: A crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas.
id USP_c4909f83278b2d2c52b7b6a64a0712e3
oai_identifier_str oai:teses.usp.br:tde-12072024-071217
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.Untitled in englishCausal inferenceCausalidadeInteligência estatísticaObservational dataOpen sourceSoftware livreA crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas.The increasing prevalence of machine learning algorithms has brought remarkable advancements in various fields of knowledge. These progressions are driven by the expansion of data collection, storage, and processing capabilities. However, as machine learning methods continue to evolve and find new applications, a fundamental and often overlooked question arises: whether there is only a correlation between variables or if they have a causal relationship. The need to answer the what if?question becomes increasingly urgent. In this context, causal inference techniques, such as those used in randomized controlled experiments, play a fundamental role in obtaining reliable insights. However, these randomized controlled experiments face challenges such as high costs and extended duration, while observational data (collected without deliberate manipulation) are a viable alternative but come with their own complexities, such as the lack of control over the applied treatment. The issue of counterfactuals, involving considering What if an alternative action had been taken instead of the one observed?becomes central in causal inference. In this research, a review of causality and causal inference concepts was conducted, followed by a detailed comparison between the Neyman-Rubin and Pearl causal modeling frameworks. Building upon the Neyman-Rubin framework, the theory behind the main models used in causal inference from observational data was reviewed. Another contribution of this research was the development of Pycausal-explorer, an open-source Python library that not only implements the models described and analyzed in this text but also allows integration with scikit-learn, one of the leading machine learning libraries in Python. With this, it is expected to promote the understanding and application of these models in observational data analysis in various fields, providing valuable insights based on more robust and solid cause-and-effect relationships.Biblioteca Digitais de Teses e Dissertações da USPLopes, Roseli de DeusEscudero, Guilherme Goto2024-02-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-07-15T11:02:02Zoai:teses.usp.br:tde-12072024-071217Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-07-15T11:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
Untitled in english
title Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
spellingShingle Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
Escudero, Guilherme Goto
Causal inference
Causalidade
Inteligência estatística
Observational data
Open source
Software livre
title_short Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
title_full Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
title_fullStr Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
title_full_unstemmed Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
title_sort Pycausal-explorer: uma biblioteca de inferência causal para dados observacionais.
author Escudero, Guilherme Goto
author_facet Escudero, Guilherme Goto
author_role author
dc.contributor.none.fl_str_mv Lopes, Roseli de Deus
dc.contributor.author.fl_str_mv Escudero, Guilherme Goto
dc.subject.por.fl_str_mv Causal inference
Causalidade
Inteligência estatística
Observational data
Open source
Software livre
topic Causal inference
Causalidade
Inteligência estatística
Observational data
Open source
Software livre
description A crescente disseminação dos algoritmos de machine learning trouxe avanços notáveis em diversas áreas do conhecimento. Esses progressos foram impulsionados pela expansão da capacidade de coleta, armazenamento e processamento de dados. No entanto, à medida que os métodos de machine learning se desenvolvem e encontram novas aplicações, surge uma questão fundamental e frequentemente negligenciada: se existe apenas correlação entre as variáveis ou se elas têm uma relação causal. A necessidade de responder à pergunta E se? se torna cada vez mais urgente. Nesse contexto, as técnicas de inferência causal, como as usadas em experimentos controlados aleatórios, desempenham um papel fundamental na obtenção de insights confiáveis. No entanto, esses experimentos controlados aleatórios enfrentam desafios como altos custos e duração prolongada, enquanto os dados observacionais (coletados sem manipulação deliberada) são uma alternativa viável, mas que por sua vez apresentam complexidades próprias, como a falta de controle sobre o tratamento aplicado. A questão do contrafactual, que envolve considerar E se uma ação alternativa tivesse sido tomada em vez daquela observada?, torna-se central na inferência causal. Nesta pesquisa, foi realizada uma revisão dos conceitos de causalidade e inferência causal, seguida do detalhamento e comparação entre os frameworks de modelagem causal de Neyman-Rubin e de Pearl. Tomando como base o framework de Neyman-Rubin, foi revisada a teoria por trás dos principais modelos utilizados em inferência causal de dados observacionais. Outra contribuição desta pesquisa foi a elaboração da Pycausal-explorer, uma biblioteca em Python de código aberto, que, além de implementar os modelos descritos e analisados neste texto, permite a integracao com o scikit-learn que é uma das principais bibliotecas de machine learning em Python. Com isso, espera-se promover a compreensão e aplicação desses modelos em análises de dados observacionais nas mais diversas áreas, proporcionando insights valiosos e embasados em relações de causa e efeito mais robustas e sólidas.
publishDate 2024
dc.date.none.fl_str_mv 2024-02-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072024-071217/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256900250370048