Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFABC |
Texto Completo: | http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466 |
Resumo: | Orientadora: Profa. Dra. Patrícia Belfiore Fávero |
id |
UFBC_447e8eb6374658ecfad04bfa0d34b37b |
---|---|
oai_identifier_str |
oai:BDTD:110466 |
network_acronym_str |
UFBC |
network_name_str |
Repositório Institucional da UFABC |
repository_id_str |
|
spelling |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big DataBIG DATAENSEMBLESALGORITMOS DE CLASSIFICAÇÃOAPRENDIZADO SUPERVISIONADOÁRVORES DE DECISÃOPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientadora: Profa. Dra. Patrícia Belfiore FáveroCoorientador: Prof. Dr. Marcelo de Souza LaurettoDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2017.Big data trouxe vários desafios para os conceitos dos algoritmos de mineração de dados, a iniciar pelas limitações de memória e tempo, bem como dados de natureza e distribuição com variação constante. Essa massa de dados interessa públicos diversos pelas informações intrínsecas em seu interior e a análise de dados é uma importante fonte estratégica aplicada com objetivos de conhecimento, desenvolvimento e planejamento. Nos últimos anos, diversos métodos baseados em ensembles de classificadores têm sido propostos. Nesses métodos, a idéia central é construir vários classificadores "fracos" para formar um classificador "robusto", que utiliza como convergência a soma (ponderada) dos votos dos subclassificadores nas possíveis classes. Os objetivos deste trabalho foram realizar análises comparativas de desempenho de classificadores de Big Data das famílias de árvores de classificação quando combinados na forma de ensembles (ou metaclassificadores) bagging e boosting. Foi implementado um ambiente de testes, utilizando algoritmos de árvores de classificação sobre datasets públicos a fim de verificar três itens fundamentais: a . Para um certo algoritmo de classificação, a configuração de ensemble (entre Bagging e Boosting) que resulta em maior acurácia. b . Para um certo tipo de ensemble, o melhor algoritmo de classificação. c . A possibilidade de identificar as famílias de Big Data (agrupado segundo um conjunto de características) em que cada tipo de classificador possui melhor desempenho. Os resultados indicaram que o ensemble Boosting apresenta acurácia superior para um número maior das amostras testadas em comparação com os demais algoritmos abordados. Entre os classificadores, sugere-se que representantes de árvores de decisão são suscetíveis à escolha do método de ensemble e, principalmente, da amostra. A análise da aplicação dos ensembles sobre as amostras e as características dos conjuntos exibiu resultados muito variáveis, entretanto notou-se uma melhoria de desempenho quando a classificação é binária.Big data has brought several challenges to the concepts of data mining algorithms, starting with the limitations of memory and time, as well as data of nature and distribution with constant variation. This mass of data interests diverse publics by the intrinsic information inside and the data analysis is an important strategic source applied with objectives of knowledge, development and planning. In recent years, several methods based on ensembles of classifiers have been proposed. In those methods, the central idea is to construct several "weak" classifiers to form a "robust" classifier, which uses as a convergence the (weighted) sum of the subclassifier¿s votes in the possible classes. The objectives of this work were to perform comparative performance analysis of Big Data classifiers of the classification tree families when combined in the form of bagging and boosting ensembles (or metaclassifiers). A test environment was implemented using classification tree algorithms on public datasets in order to verify three fundamental items: a . For a certain classification algorithm, the ensemble configuration (between Bagging and Boosting) results in greater accuracy. b . For a certain type of ensemble, the best classification algorithm. c . The possibility of identifying Big Data families (grouped according to a set of characteristics) in which each type of classifier performs better. The results indicated that the Boosting ensemble presents superior accuracy for a larger number of samples tested in comparison to the other algorithms. Among the classifiers, it is suggested that representatives of decisions trees are susceptible to the choice of the ensemble method and, mainly, of the sample. The ensembles application analysis on the samples and the characteristics of the sets showed very variable results, however a performance improvement was noticed when the classification was binary.Fávero, Patrícia BelfioreLauretto, Marcelo de SouzaGazziro, Mario AlexandreLima, Ariane MachadoAlves, Melina Brilhadori2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf52 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76123http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76124Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=110466porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2022-03-21T13:35:25Zoai:BDTD:110466Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2022-03-21T13:35:25Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false |
dc.title.none.fl_str_mv |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
title |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
spellingShingle |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data Alves, Melina Brilhadori BIG DATA ENSEMBLES ALGORITMOS DE CLASSIFICAÇÃO APRENDIZADO SUPERVISIONADO ÁRVORES DE DECISÃO PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
title_short |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
title_full |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
title_fullStr |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
title_full_unstemmed |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
title_sort |
Estudo comparativo entre algoritmos de árvores de decisão baseados em ensembles de classificadores aplicados a Big Data |
author |
Alves, Melina Brilhadori |
author_facet |
Alves, Melina Brilhadori |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fávero, Patrícia Belfiore Lauretto, Marcelo de Souza Gazziro, Mario Alexandre Lima, Ariane Machado |
dc.contributor.author.fl_str_mv |
Alves, Melina Brilhadori |
dc.subject.por.fl_str_mv |
BIG DATA ENSEMBLES ALGORITMOS DE CLASSIFICAÇÃO APRENDIZADO SUPERVISIONADO ÁRVORES DE DECISÃO PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
topic |
BIG DATA ENSEMBLES ALGORITMOS DE CLASSIFICAÇÃO APRENDIZADO SUPERVISIONADO ÁRVORES DE DECISÃO PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
description |
Orientadora: Profa. Dra. Patrícia Belfiore Fávero |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466 |
url |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76123 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110466&midiaext=76124 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=110466 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 52 f. : il. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC |
instname_str |
Universidade Federal do ABC (UFABC) |
instacron_str |
UFABC |
institution |
UFABC |
reponame_str |
Repositório Institucional da UFABC |
collection |
Repositório Institucional da UFABC |
repository.name.fl_str_mv |
Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC) |
repository.mail.fl_str_mv |
|
_version_ |
1813263945741369344 |