Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data

Detalhes bibliográficos
Autor(a) principal: Alves, Melina Brilhadori
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466
Resumo: Orientadora: Profa. Dra. Patrícia Belfiore Fávero
id UFBC_447e8eb6374658ecfad04bfa0d34b37b
oai_identifier_str oai:BDTD:110466
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big DataBIG DATAENSEMBLESALGORITMOS DE CLASSIFICAÇÃOAPRENDIZADO SUPERVISIONADOÁRVORES DE DECISÃOPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientadora: Profa. Dra. Patrícia Belfiore FáveroCoorientador: Prof. Dr. Marcelo de Souza LaurettoDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017.Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados, a iniciar pelas limitações de memória e tempo, bem como dados de natureza e distribuição com variação constante. Essa massa de dados interessa públicos diversos pelas informações intrínsecas em seu interior e a análise de dados é uma importante fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento. Nos últimos anos, diversos métodos baseados em ensembles de classificadores têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores "fracos" para formar um classificador "robusto", que utiliza como convergência a soma (ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste trabalho foram realizar análises comparativas de desempenho de classificadores de Big Data das famílias de árvores de classificação quando combinados na forma de ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim de verificar três itens fundamentais: a . Para um certo algoritmo de classificação, a configuração de ensemble (entre Bagging e Boosting) que resulta em maior acurácia. b . Para um certo tipo de ensemble, o melhor algoritmo de classificação. c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um conjunto de características) em que cada tipo de classificador possui melhor desempenho. Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para um número maior das amostras testadas em comparação com os demais algoritmos abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando a classificação é binária.Big data has brought several challenges to the concepts of data mining algorithms, starting with the limitations of memory and time, as well as data of nature and distribution with constant variation. This mass of data interests diverse publics by the intrinsic information inside and the data analysis is an important strategic source applied with objectives of knowledge, development and planning. In recent years, several methods based on ensembles of classifiers have been proposed. In those methods, the central idea is to construct several "weak" classifiers to form a "robust" classifier, which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the possible classes. The objectives of this work were to perform comparative performance analysis of Big Data classifiers of the classification tree families when combined in the form of bagging and boosting ensembles (or metaclassifiers). A test environment was implemented using classification tree algorithms on public datasets in order to verify three fundamental items: a . For a certain classification algorithm, the ensemble configuration (between Bagging and Boosting) results in greater accuracy. b . For a certain type of ensemble, the best classification algorithm. c . The possibility of identifying Big Data families (grouped according to a set of characteristics) in which each type of classifier performs better. The results indicated that the Boosting ensemble presents superior accuracy for a larger number of samples tested in comparison to the other algorithms. Among the classifiers, it is suggested that representatives of decisions trees are susceptible to the choice of the ensemble method and, mainly, of the sample. The ensembles application analysis on the samples and the characteristics of the sets showed very variable results, however a performance improvement was noticed when the classification was binary.Fávero, Patrícia BelfioreLauretto, Marcelo de SouzaGazziro, Mario AlexandreLima, Ariane MachadoAlves, Melina Brilhadori2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf52 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76123http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76124Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=110466porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2022-03-21T13:35:25Zoai:BDTD:110466Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2022-03-21T13:35:25Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
title Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
spellingShingle Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
Alves, Melina Brilhadori
BIG DATA
ENSEMBLES
ALGORITMOS DE CLASSIFICAÇÃO
APRENDIZADO SUPERVISIONADO
ÁRVORES DE DECISÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
title_short Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
title_full Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
title_fullStr Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
title_full_unstemmed Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
title_sort Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
author Alves, Melina Brilhadori
author_facet Alves, Melina Brilhadori
author_role author
dc.contributor.none.fl_str_mv Fávero, Patrícia Belfiore
Lauretto, Marcelo de Souza
Gazziro, Mario Alexandre
Lima, Ariane Machado
dc.contributor.author.fl_str_mv Alves, Melina Brilhadori
dc.subject.por.fl_str_mv BIG DATA
ENSEMBLES
ALGORITMOS DE CLASSIFICAÇÃO
APRENDIZADO SUPERVISIONADO
ÁRVORES DE DECISÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
topic BIG DATA
ENSEMBLES
ALGORITMOS DE CLASSIFICAÇÃO
APRENDIZADO SUPERVISIONADO
ÁRVORES DE DECISÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
description Orientadora: Profa. Dra. Patrícia Belfiore Fávero
publishDate 2017
dc.date.none.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76123
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76124
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=110466
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
52 f. : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1813263945741369344