Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão

Detalhes bibliográficos
Autor(a) principal: Heitor Blesa Farias
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/50516
https://orcid.org/0000-0002-8090-4012
Resumo: O método de árvore é uma abordagem bem estabelecida em aprendizado de máquina. A maioria de seus algoritmos constroem uma árvore inicial para a previsão de um determinado resultado e depois "podam" essa árvore como forma de minimizar o overfitting. O critério custo de complexidade é provavelmente o mais utilizado para poda, pois é um critério objetivo para definir o ponto na árvore onde a previsão é a melhor possível, levando em consideração a capacidade preditiva do modelo em outras amostras da população. Pesquisadores têm usado esse critério para realizar a poda da árvore de regressão com base nas recomendações da literatura de que esse é um bom critério. No entanto, não existe uma metodologia em que o pesquisador seja capaz de avaliar a eficácia desse critério para gerar uma árvore empírica com poda adequada, ou seja, uma árvore que não tenha overfitting e que encontre a melhor previsão possível para outras amostras da população. Considerando a relevância das técnicas de regressão de árvores para predição e a necessidade de poda dessas árvores para lidar com o problema de overfitting, é necessário desenvolver uma metodologia que permita ao pesquisador avaliar se o critério custo de complexidade é adequado, tomando como referência a sua própria árvore empírica podada. Esta dissertação tem como objetivo desenvolver uma metodologia prática para avaliar a adequação do critério custo de complexidade para poda de árvores de regressão. A dissertação é composta por dois artigos. O estudo um é uma simulação que apresenta evidências iniciais de que o critério de custo de complexidade é sensível ao tamanho da amostra e gera árvores podadas inadequadamente dependendo do tamanho dessas amostras. Devido a essa inadequação, é necessário testar se a poda pelo critério de custo de complexidade é adequada para um dado empírico. No estudo dois, apresenta-se de forma didática o problema do critério custo da complexidade, bem como a metodologia desenvolvida para verificar a adequação deste critério. Neste estudo, também é apresentado um exemplo de como implementar a metodologia e sua avaliação via simulação.
id UFMG_88fee7a0d2ad16071250ea9c392de5fd
oai_identifier_str oai:repositorio.ufmg.br:1843/50516
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Cristiano Mauro Assis Gomeshttp://lattes.cnpq.br/2458326202205195Vithor Rosa FrancoMaicon Rodrigues Albuquerquehttp://lattes.cnpq.br/3865037238846858Heitor Blesa Farias2023-02-28T18:00:02Z2023-02-28T18:00:02Z2022-08-26http://hdl.handle.net/1843/50516https://orcid.org/0000-0002-8090-4012O método de árvore é uma abordagem bem estabelecida em aprendizado de máquina. A maioria de seus algoritmos constroem uma árvore inicial para a previsão de um determinado resultado e depois "podam" essa árvore como forma de minimizar o overfitting. O critério custo de complexidade é provavelmente o mais utilizado para poda, pois é um critério objetivo para definir o ponto na árvore onde a previsão é a melhor possível, levando em consideração a capacidade preditiva do modelo em outras amostras da população. Pesquisadores têm usado esse critério para realizar a poda da árvore de regressão com base nas recomendações da literatura de que esse é um bom critério. No entanto, não existe uma metodologia em que o pesquisador seja capaz de avaliar a eficácia desse critério para gerar uma árvore empírica com poda adequada, ou seja, uma árvore que não tenha overfitting e que encontre a melhor previsão possível para outras amostras da população. Considerando a relevância das técnicas de regressão de árvores para predição e a necessidade de poda dessas árvores para lidar com o problema de overfitting, é necessário desenvolver uma metodologia que permita ao pesquisador avaliar se o critério custo de complexidade é adequado, tomando como referência a sua própria árvore empírica podada. Esta dissertação tem como objetivo desenvolver uma metodologia prática para avaliar a adequação do critério custo de complexidade para poda de árvores de regressão. A dissertação é composta por dois artigos. O estudo um é uma simulação que apresenta evidências iniciais de que o critério de custo de complexidade é sensível ao tamanho da amostra e gera árvores podadas inadequadamente dependendo do tamanho dessas amostras. Devido a essa inadequação, é necessário testar se a poda pelo critério de custo de complexidade é adequada para um dado empírico. No estudo dois, apresenta-se de forma didática o problema do critério custo da complexidade, bem como a metodologia desenvolvida para verificar a adequação deste critério. Neste estudo, também é apresentado um exemplo de como implementar a metodologia e sua avaliação via simulação.The tree method is a well-established approach in machine learning. Most of its algorithms build an initial tree for the prediction of a given outcome and then "prune" this tree as a way to minimize overfitting. The cost of complexity criterion is probably the most used for pruning, because it is an objective criterion to define the point in the tree where the prediction is the best possible, taking into account the predictive ability of the model in other samples of the population. Researchers have used this criterion to perform regression tree pruning based on literature recommendations that this is a good criterion. However, there is no methodology in which the researcher is able to assess the effectiveness of this criterion to generate an empirical tree with adequate pruning, that is, a tree that does not have overfitting and that finds the best possible prediction for other samples of the population. Considering the relevance of tree regression techniques for prediction and the need for pruning these trees to deal with the overfitting problem, it is necessary to develop a methodology that allows the researcher to assess whether the criterion cost of complexity is adequate, taking as reference your own pruned empirical tree. This dissertation aimed to develop a practical methodology to evaluate the adequacy of the cost of complexity criterion for pruning regression trees. The dissertation consists of two articles. Study one is a simulation that presents initial evidence that the complexity cost criterion is sensitive to sample size and generates inadequately pruned trees depending on the size of these samples. Due to this inadequacy, it is necessary to test whether pruning via the complexity cost criterion is adequate for a given empirical data. In study two, the problem of the cost of complexity criterion is presented in a didactic way, as well as the methodology developed to verify the adequacy of this criterion. In this study, an example of how to implement the methodology and its evaluation via simulation is also presented.FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de Minas GeraisPrograma de Pós-graduação em Psicologia: Cognição e ComportamentoUFMGBrasilFAF - DEPARTAMENTO DE PSICOLOGIAhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessPsicologia - TesesAnálise de regressão - TesesCritério de custo de complexidadeMétodo de árvore de regressãoMetodologiaSimulaçãoSoftware RAlgoritmo CARTUma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/50516/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/50516/3/license.txtcda590c95a0b51b4d15f60c9642ca272MD53ORIGINALDissertação - Heitor Blesa Farias.pdfDissertação - Heitor Blesa Farias.pdfapplication/pdf1340254https://repositorio.ufmg.br/bitstream/1843/50516/1/Disserta%c3%a7%c3%a3o%20-%20Heitor%20Blesa%20Farias.pdf8e574cc79e78c3a2cbe305b1cb37e8c3MD511843/505162023-02-28 15:00:02.505oai:repositorio.ufmg.br:1843/50516TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-02-28T18:00:02Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
title Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
spellingShingle Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
Heitor Blesa Farias
Critério de custo de complexidade
Método de árvore de regressão
Metodologia
Simulação
Software R
Algoritmo CART
Psicologia - Teses
Análise de regressão - Teses
title_short Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
title_full Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
title_fullStr Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
title_full_unstemmed Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
title_sort Uma metodologia prática para testar o critério do custo de complexidade ao podar árvores de regressão
author Heitor Blesa Farias
author_facet Heitor Blesa Farias
author_role author
dc.contributor.advisor1.fl_str_mv Cristiano Mauro Assis Gomes
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2458326202205195
dc.contributor.referee1.fl_str_mv Vithor Rosa Franco
dc.contributor.referee2.fl_str_mv Maicon Rodrigues Albuquerque
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3865037238846858
dc.contributor.author.fl_str_mv Heitor Blesa Farias
contributor_str_mv Cristiano Mauro Assis Gomes
Vithor Rosa Franco
Maicon Rodrigues Albuquerque
dc.subject.por.fl_str_mv Critério de custo de complexidade
Método de árvore de regressão
Metodologia
Simulação
Software R
Algoritmo CART
topic Critério de custo de complexidade
Método de árvore de regressão
Metodologia
Simulação
Software R
Algoritmo CART
Psicologia - Teses
Análise de regressão - Teses
dc.subject.other.pt_BR.fl_str_mv Psicologia - Teses
Análise de regressão - Teses
description O método de árvore é uma abordagem bem estabelecida em aprendizado de máquina. A maioria de seus algoritmos constroem uma árvore inicial para a previsão de um determinado resultado e depois "podam" essa árvore como forma de minimizar o overfitting. O critério custo de complexidade é provavelmente o mais utilizado para poda, pois é um critério objetivo para definir o ponto na árvore onde a previsão é a melhor possível, levando em consideração a capacidade preditiva do modelo em outras amostras da população. Pesquisadores têm usado esse critério para realizar a poda da árvore de regressão com base nas recomendações da literatura de que esse é um bom critério. No entanto, não existe uma metodologia em que o pesquisador seja capaz de avaliar a eficácia desse critério para gerar uma árvore empírica com poda adequada, ou seja, uma árvore que não tenha overfitting e que encontre a melhor previsão possível para outras amostras da população. Considerando a relevância das técnicas de regressão de árvores para predição e a necessidade de poda dessas árvores para lidar com o problema de overfitting, é necessário desenvolver uma metodologia que permita ao pesquisador avaliar se o critério custo de complexidade é adequado, tomando como referência a sua própria árvore empírica podada. Esta dissertação tem como objetivo desenvolver uma metodologia prática para avaliar a adequação do critério custo de complexidade para poda de árvores de regressão. A dissertação é composta por dois artigos. O estudo um é uma simulação que apresenta evidências iniciais de que o critério de custo de complexidade é sensível ao tamanho da amostra e gera árvores podadas inadequadamente dependendo do tamanho dessas amostras. Devido a essa inadequação, é necessário testar se a poda pelo critério de custo de complexidade é adequada para um dado empírico. No estudo dois, apresenta-se de forma didática o problema do critério custo da complexidade, bem como a metodologia desenvolvida para verificar a adequação deste critério. Neste estudo, também é apresentado um exemplo de como implementar a metodologia e sua avaliação via simulação.
publishDate 2022
dc.date.issued.fl_str_mv 2022-08-26
dc.date.accessioned.fl_str_mv 2023-02-28T18:00:02Z
dc.date.available.fl_str_mv 2023-02-28T18:00:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/50516
dc.identifier.orcid.pt_BR.fl_str_mv https://orcid.org/0000-0002-8090-4012
url http://hdl.handle.net/1843/50516
https://orcid.org/0000-0002-8090-4012
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Psicologia: Cognição e Comportamento
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv FAF - DEPARTAMENTO DE PSICOLOGIA
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/50516/2/license_rdf
https://repositorio.ufmg.br/bitstream/1843/50516/3/license.txt
https://repositorio.ufmg.br/bitstream/1843/50516/1/Disserta%c3%a7%c3%a3o%20-%20Heitor%20Blesa%20Farias.pdf
bitstream.checksum.fl_str_mv cfd6801dba008cb6adbd9838b81582ab
cda590c95a0b51b4d15f60c9642ca272
8e574cc79e78c3a2cbe305b1cb37e8c3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1793890398163173376