Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Detalhes bibliográficos
Autor(a) principal: Lauris, Renato Pedroso
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/276732
Resumo: A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).
id URGS_b59c13d22217e094805a01add74a8a4f
oai_identifier_str oai:www.lume.ufrgs.br:10183/276732
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Lauris, Renato PedrosoHorta, Eduardo de OliveiraReis, Rodrigo Citton Padilha dos2024-07-31T06:12:17Z2023http://hdl.handle.net/10183/276732001198754A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).The proliferation of data with higher dimensions and the growing interest in inferring causality have allowed for advancements in research methods that aim to estimate, beyond the average treatment effect, the conditional average treatment effect (CATE). In this direction, some machine learning methods have been proposed to estimate the CATE and identify heterogeneous effects based on the data itself, thus reducing the possibility of arbitrary covariate selection (p-hacking). Two methods have emerged as robust alternatives for this purpose: Causal Forest (CF, Wager and Athey (2018)) and Double Machine Learning (DML, Chernozhukov et al. (2022)). Considering the competition between these approaches and the lack of comparative studies, the main objective of this dissertation is to present these methods and evaluate, through a simulation study, which one better handles the estimation of heterogeneous treatment effects with linear and nonlinear functional forms, scenarios with peaks and valleys, and discontinuities. A Monte Carlo simulation based on cases that illustrate the challenges of estimation and inference for each method was implemented. Performance indicators such as Mean Squared Error (MSE) and Absolute Bias for estimation accuracy, as well as Coverage Rate for the adequacy of the confidence interval, were used to assess the results. The simulation results revealed some noteworthy findings. The DML estimates had accuracy levels and bias close to CF as measured by MSE and Absolute Bias, but only for linear and nonlinear scenarios. Both CF and DML methods exhibited inadequate coverage rates in the proposed scenarios, indicating the need for further advancement in proposing procedures for constructing confidence intervals (CIs) and developing estimators for the variance of the CATE. Overall, DML does not demonstrate better properties for overcoming estimation challenges in functional scenarios of the CATE with peaks and valleys or discontinuities. On the other hand, it was found that the alternative method to Causal Forest had lower sensitivity in estimation performance in higher dimensions settings, especially for sample sizes larger than n = 2000. This opens up the possibility for future research to advance in more flexible models using DML that may improve estimation fitting in the aforementioned scenarios. This work contributes to the proposition of simulation scenarios and the comparison between CF and DML methods that had not been compared in previous studies. Additionally, it provides an alternative implementation for estimating the CATE using the DML method in R, using the R-Python interface through the packages DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).application/pdfporAprendizado de máquinaSimulação de Monte CarloEstimadorHigher dimensionalitiesMachine learningConditional average treatment effectCausal forestDebiased Machine Learning (DML)Monte Carlo simulationComparison of estimators performanceEstimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPrograma de Pós-Graduação em EstatísticaPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001198754.pdf.txt001198754.pdf.txtExtracted Texttext/plain263204http://www.lume.ufrgs.br/bitstream/10183/276732/2/001198754.pdf.txt3778202a2e8b366fb7a83a38303d3fc3MD52ORIGINAL001198754.pdfTexto completoapplication/pdf2070047http://www.lume.ufrgs.br/bitstream/10183/276732/1/001198754.pdf79630460d64d755da40265ab54dd4775MD5110183/2767322024-08-01 06:41:00.675463oai:www.lume.ufrgs.br:10183/276732Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-08-01T09:41Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
spellingShingle Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
Lauris, Renato Pedroso
Aprendizado de máquina
Simulação de Monte Carlo
Estimador
Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
title_short Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_fullStr Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full_unstemmed Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_sort Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
author Lauris, Renato Pedroso
author_facet Lauris, Renato Pedroso
author_role author
dc.contributor.author.fl_str_mv Lauris, Renato Pedroso
dc.contributor.advisor1.fl_str_mv Horta, Eduardo de Oliveira
dc.contributor.advisor-co1.fl_str_mv Reis, Rodrigo Citton Padilha dos
contributor_str_mv Horta, Eduardo de Oliveira
Reis, Rodrigo Citton Padilha dos
dc.subject.por.fl_str_mv Aprendizado de máquina
Simulação de Monte Carlo
Estimador
topic Aprendizado de máquina
Simulação de Monte Carlo
Estimador
Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
dc.subject.eng.fl_str_mv Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
description A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-07-31T06:12:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/276732
dc.identifier.nrb.pt_BR.fl_str_mv 001198754
url http://hdl.handle.net/10183/276732
identifier_str_mv 001198754
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/276732/2/001198754.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/276732/1/001198754.pdf
bitstream.checksum.fl_str_mv 3778202a2e8b366fb7a83a38303d3fc3
79630460d64d755da40265ab54dd4775
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085646918746112