Árvores de decisão: a evolução do CART ao BART

Detalhes bibliográficos
Autor(a) principal: Souza, Cleber Batista de
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-05042022-095004/
Resumo: O objetivo deste trabalho é apresentar a evolução do uso dos modelos de Árvore de Decisão cuja linhagem remonta ao modelo CART (Classication And RegressionTrees) apresentado na publica- ção seminal Breiman et al. (1984). O modelo CART gerou uma sequência frutífera de modelos a partir da ideia de replicação da amostra disponível (via bootstrap) e/ou multiplicação no número de árvores (ensembles) para compor um resultado nal. Passando pelo Bagging com replicação de amostras seguido das Florestas Aleatórias com a soma de múltiplas de árvores, apresentamos os modelos baseados em boosting: AdaBoost, Gradiente Boost e XGBoost. Surgidos a partir da utilização dos modelos aditivos, árvores são ajustadas em sequência onde cada árvore subsequente procura diminuir o erro cometido pela precedente e ao mesmo tempo maximizar uma função de perda que engloba o conjunto de árvores como um todo, o resultado nal é a soma de todas árvores geradas. Os modelos de árvores Bayesianas também são apresentados: árvores Bayesianas CART e árvores Bayesianas BART. Para cada modelo desenvolvemos, segundo aplicável, como a árvore é construída, estimativas de erro, funções de perda adequadas, medidas de importância de variáveis, algoritmo de cálculo e uma ilustração para entendimento. No nal mostramos resultados de simula ção e aplicações em dados reais.
id USP_6720d4bd902984d7eae6cb4d97c11097
oai_identifier_str oai:teses.usp.br:tde-05042022-095004
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Árvores de decisão: a evolução do CART ao BARTDecision trees: the evolution from CART to BARTAdaBoostAdaBoostÁrvores BayesianasÁrvores de classicaçãoÁrvores de decisãoÁrvores de regressãoBaggingBaggingBARTBARTBayesian CART treesBoostingBoostingCARTCARTClassication treesDecision treesFlorestas aleatóriasGradient boostGradiente boostRandom forestRegression treesXGBoostXGBoostO objetivo deste trabalho é apresentar a evolução do uso dos modelos de Árvore de Decisão cuja linhagem remonta ao modelo CART (Classication And RegressionTrees) apresentado na publica- ção seminal Breiman et al. (1984). O modelo CART gerou uma sequência frutífera de modelos a partir da ideia de replicação da amostra disponível (via bootstrap) e/ou multiplicação no número de árvores (ensembles) para compor um resultado nal. Passando pelo Bagging com replicação de amostras seguido das Florestas Aleatórias com a soma de múltiplas de árvores, apresentamos os modelos baseados em boosting: AdaBoost, Gradiente Boost e XGBoost. Surgidos a partir da utilização dos modelos aditivos, árvores são ajustadas em sequência onde cada árvore subsequente procura diminuir o erro cometido pela precedente e ao mesmo tempo maximizar uma função de perda que engloba o conjunto de árvores como um todo, o resultado nal é a soma de todas árvores geradas. Os modelos de árvores Bayesianas também são apresentados: árvores Bayesianas CART e árvores Bayesianas BART. Para cada modelo desenvolvemos, segundo aplicável, como a árvore é construída, estimativas de erro, funções de perda adequadas, medidas de importância de variáveis, algoritmo de cálculo e uma ilustração para entendimento. No nal mostramos resultados de simula ção e aplicações em dados reais.The objective of this work is to present the evolution of the use of Decision Tree models whose lineage goes back to the CART model (Classication And RegressionTrees) presented in the seminal publication Breiman et al. (1984). The CART model generated a fruitful sequence of models from the idea of replicating the available sample (via bootstrap) and/or multiplying in the number of trees (ensembles) to compose a nal result. Going through Bagging with replication of samples followed by Random Forests with the sum of multiples of trees, we present the models based on boosting: AdaBoost, Gradient Boost and XGBoost. Arising from the use of additive models, trees are adjusted in sequence where each subsequent tree seeks to reduce the error made by the preceding one and at the same time maximize a loss function that encompasses the set of trees as a whole, the nal result is the sum of all generated trees. Bayesian tree models are also presented: Bayesian CART trees and Bayesian BART trees. For each model we develop, as applicable, how the tree is constructed, error estimates, suitable loss functions, variable importance measures, calculation algorithm and an illustration for understanding. At the end we provide simulation results and applications on real data.Biblioteca Digitais de Teses e Dissertações da USPChiann, ChangSouza, Cleber Batista de2021-12-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-05042022-095004/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T11:04:02Zoai:teses.usp.br:tde-05042022-095004Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T11:04:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Árvores de decisão: a evolução do CART ao BART
Decision trees: the evolution from CART to BART
title Árvores de decisão: a evolução do CART ao BART
spellingShingle Árvores de decisão: a evolução do CART ao BART
Souza, Cleber Batista de
AdaBoost
AdaBoost
Árvores Bayesianas
Árvores de classicação
Árvores de decisão
Árvores de regressão
Bagging
Bagging
BART
BART
Bayesian CART trees
Boosting
Boosting
CART
CART
Classication trees
Decision trees
Florestas aleatórias
Gradient boost
Gradiente boost
Random forest
Regression trees
XGBoost
XGBoost
title_short Árvores de decisão: a evolução do CART ao BART
title_full Árvores de decisão: a evolução do CART ao BART
title_fullStr Árvores de decisão: a evolução do CART ao BART
title_full_unstemmed Árvores de decisão: a evolução do CART ao BART
title_sort Árvores de decisão: a evolução do CART ao BART
author Souza, Cleber Batista de
author_facet Souza, Cleber Batista de
author_role author
dc.contributor.none.fl_str_mv Chiann, Chang
dc.contributor.author.fl_str_mv Souza, Cleber Batista de
dc.subject.por.fl_str_mv AdaBoost
AdaBoost
Árvores Bayesianas
Árvores de classicação
Árvores de decisão
Árvores de regressão
Bagging
Bagging
BART
BART
Bayesian CART trees
Boosting
Boosting
CART
CART
Classication trees
Decision trees
Florestas aleatórias
Gradient boost
Gradiente boost
Random forest
Regression trees
XGBoost
XGBoost
topic AdaBoost
AdaBoost
Árvores Bayesianas
Árvores de classicação
Árvores de decisão
Árvores de regressão
Bagging
Bagging
BART
BART
Bayesian CART trees
Boosting
Boosting
CART
CART
Classication trees
Decision trees
Florestas aleatórias
Gradient boost
Gradiente boost
Random forest
Regression trees
XGBoost
XGBoost
description O objetivo deste trabalho é apresentar a evolução do uso dos modelos de Árvore de Decisão cuja linhagem remonta ao modelo CART (Classication And RegressionTrees) apresentado na publica- ção seminal Breiman et al. (1984). O modelo CART gerou uma sequência frutífera de modelos a partir da ideia de replicação da amostra disponível (via bootstrap) e/ou multiplicação no número de árvores (ensembles) para compor um resultado nal. Passando pelo Bagging com replicação de amostras seguido das Florestas Aleatórias com a soma de múltiplas de árvores, apresentamos os modelos baseados em boosting: AdaBoost, Gradiente Boost e XGBoost. Surgidos a partir da utilização dos modelos aditivos, árvores são ajustadas em sequência onde cada árvore subsequente procura diminuir o erro cometido pela precedente e ao mesmo tempo maximizar uma função de perda que engloba o conjunto de árvores como um todo, o resultado nal é a soma de todas árvores geradas. Os modelos de árvores Bayesianas também são apresentados: árvores Bayesianas CART e árvores Bayesianas BART. Para cada modelo desenvolvemos, segundo aplicável, como a árvore é construída, estimativas de erro, funções de perda adequadas, medidas de importância de variáveis, algoritmo de cálculo e uma ilustração para entendimento. No nal mostramos resultados de simula ção e aplicações em dados reais.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-05042022-095004/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-05042022-095004/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090403576578048