Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Lauris, Renato Pedroso

Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Detalhes bibliográficos
Autor(a) principal:	Lauris, Renato Pedroso
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/276732
Resumo:	A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).

Metadados do item

id	URGS_b59c13d22217e094805a01add74a8a4f
oai_identifier_str	oai:www.lume.ufrgs.br:10183/276732
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Lauris, Renato PedrosoHorta, Eduardo de OliveiraReis, Rodrigo Citton Padilha dos2024-07-31T06:12:17Z2023http://hdl.handle.net/10183/276732001198754A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).The proliferation of data with higher dimensions and the growing interest in inferring causality have allowed for advancements in research methods that aim to estimate, beyond the average treatment effect, the conditional average treatment effect (CATE). In this direction, some machine learning methods have been proposed to estimate the CATE and identify heterogeneous effects based on the data itself, thus reducing the possibility of arbitrary covariate selection (p-hacking). Two methods have emerged as robust alternatives for this purpose: Causal Forest (CF, Wager and Athey (2018)) and Double Machine Learning (DML, Chernozhukov et al. (2022)). Considering the competition between these approaches and the lack of comparative studies, the main objective of this dissertation is to present these methods and evaluate, through a simulation study, which one better handles the estimation of heterogeneous treatment effects with linear and nonlinear functional forms, scenarios with peaks and valleys, and discontinuities. A Monte Carlo simulation based on cases that illustrate the challenges of estimation and inference for each method was implemented. Performance indicators such as Mean Squared Error (MSE) and Absolute Bias for estimation accuracy, as well as Coverage Rate for the adequacy of the confidence interval, were used to assess the results. The simulation results revealed some noteworthy findings. The DML estimates had accuracy levels and bias close to CF as measured by MSE and Absolute Bias, but only for linear and nonlinear scenarios. Both CF and DML methods exhibited inadequate coverage rates in the proposed scenarios, indicating the need for further advancement in proposing procedures for constructing confidence intervals (CIs) and developing estimators for the variance of the CATE. Overall, DML does not demonstrate better properties for overcoming estimation challenges in functional scenarios of the CATE with peaks and valleys or discontinuities. On the other hand, it was found that the alternative method to Causal Forest had lower sensitivity in estimation performance in higher dimensions settings, especially for sample sizes larger than n = 2000. This opens up the possibility for future research to advance in more flexible models using DML that may improve estimation fitting in the aforementioned scenarios. This work contributes to the proposition of simulation scenarios and the comparison between CF and DML methods that had not been compared in previous studies. Additionally, it provides an alternative implementation for estimating the CATE using the DML method in R, using the R-Python interface through the packages DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).application/pdfporAprendizado de máquinaSimulação de Monte CarloEstimadorHigher dimensionalitiesMachine learningConditional average treatment effectCausal forestDebiased Machine Learning (DML)Monte Carlo simulationComparison of estimators performanceEstimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPrograma de Pós-Graduação em EstatísticaPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001198754.pdf.txt001198754.pdf.txtExtracted Texttext/plain263204http://www.lume.ufrgs.br/bitstream/10183/276732/2/001198754.pdf.txt3778202a2e8b366fb7a83a38303d3fc3MD52ORIGINAL001198754.pdfTexto completoapplication/pdf2070047http://www.lume.ufrgs.br/bitstream/10183/276732/1/001198754.pdf79630460d64d755da40265ab54dd4775MD5110183/2767322024-08-01 06:41:00.675463oai:www.lume.ufrgs.br:10183/276732Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532024-08-01T09:41Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
spellingShingle	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo Lauris, Renato Pedroso Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance
title_short	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_fullStr	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full_unstemmed	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_sort	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
author	Lauris, Renato Pedroso
author_facet	Lauris, Renato Pedroso
author_role	author
dc.contributor.author.fl_str_mv	Lauris, Renato Pedroso
dc.contributor.advisor1.fl_str_mv	Horta, Eduardo de Oliveira
dc.contributor.advisor-co1.fl_str_mv	Reis, Rodrigo Citton Padilha dos
contributor_str_mv	Horta, Eduardo de Oliveira Reis, Rodrigo Citton Padilha dos
dc.subject.por.fl_str_mv	Aprendizado de máquina Simulação de Monte Carlo Estimador
topic	Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance
dc.subject.eng.fl_str_mv	Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance
description	A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).
publishDate	2023
dc.date.issued.fl_str_mv	2023
dc.date.accessioned.fl_str_mv	2024-07-31T06:12:17Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/276732
dc.identifier.nrb.pt_BR.fl_str_mv	001198754
url	http://hdl.handle.net/10183/276732
identifier_str_mv	001198754
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/276732/2/001198754.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/276732/1/001198754.pdf
bitstream.checksum.fl_str_mv	3778202a2e8b366fb7a83a38303d3fc3 79630460d64d755da40265ab54dd4775
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085646918746112

Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Registros relacionados