Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução

Detalhes bibliográficos
Autor(a) principal: Nunes, Andre Kenji Kagawa
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/198497
Resumo: O aprendizado a partir de fluxos de dados sofre de diversos problemas que não existem em outros cenários de aprendizado de máquina convencional. Os principais problemas tratados nesse trabalho são a sua natureza online e não estacionária, além de suas consequências: as possíveis mudanças na função geradora dos dados, que caracterizam um concept drift. Esse cenário cria a necessidade de novos algoritmos desevolvidos para se adaptar à essas possíveis mudanças, que podem ocorrer de maneira gradual ou abrupta. Mas não limitado a essas anomalias, também existe a necessidade de lidar com uma possível alta dimensionalidade dos dados somado à necessidade de realizar o aprendizado incrementalmente, e em tempo real. Como resposta a esses desafios, existem diferentes soluções no estado da arte, envolvendo variados mecanismos como feature selection e métodos de detecção de concept drift. Portanto, nesse trabalho é analisado o impacto e viabilidade da adição desses mecanismos à algoritmos de classificação, em relação ao custo computacional e poder preditivo. Para isso, é proposto um algoritmo de controle definido como um comitê de árvores de decisão equipado com adaptação passiva externa aos classificadores base, e três modificações distintas originadas dele, onde uma utiliza um seletor de features relevantes, outra um detector de concept drift e adaptação ativa, e a última modificação utiliza os dois simultaneamente. Para comparar estas variações, são apresentados os resultados dos testes em múltiplos cenários representados por datasets sintéticos e reais. Deste modo, o algoritmo utilizando apenas feature selection e adaptação passiva apresentou ganho de acurácia e diminuição do custo computacional, enquanto os algoritmos utilizando métodos de detecção de concept drift apresentaram um desempenho inferior ao demais algoritmos, na maioria dos casos. Esses resultados foram verificados utilizando o teste de Friedman com procedimento post-hoc, onde a modificação com apenas feature selection foi a única que mostrou diferença estatisticamente significativa sobre os outros algoritmo com grau de confiança de 0.10, enquanto os testes foram inconclusivos para os algoritmos que utilizaram adaptação ativa.
id UFRGS-2_f90815fb7d2db90b10b8c70de7b45e86
oai_identifier_str oai:www.lume.ufrgs.br:10183/198497
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Nunes, Andre Kenji KagawaRecamonde-Mendoza, MarianaBazzan, Ana Lucia Cetertich2019-08-29T02:34:33Z2019http://hdl.handle.net/10183/198497001098439O aprendizado a partir de fluxos de dados sofre de diversos problemas que não existem em outros cenários de aprendizado de máquina convencional. Os principais problemas tratados nesse trabalho são a sua natureza online e não estacionária, além de suas consequências: as possíveis mudanças na função geradora dos dados, que caracterizam um concept drift. Esse cenário cria a necessidade de novos algoritmos desevolvidos para se adaptar à essas possíveis mudanças, que podem ocorrer de maneira gradual ou abrupta. Mas não limitado a essas anomalias, também existe a necessidade de lidar com uma possível alta dimensionalidade dos dados somado à necessidade de realizar o aprendizado incrementalmente, e em tempo real. Como resposta a esses desafios, existem diferentes soluções no estado da arte, envolvendo variados mecanismos como feature selection e métodos de detecção de concept drift. Portanto, nesse trabalho é analisado o impacto e viabilidade da adição desses mecanismos à algoritmos de classificação, em relação ao custo computacional e poder preditivo. Para isso, é proposto um algoritmo de controle definido como um comitê de árvores de decisão equipado com adaptação passiva externa aos classificadores base, e três modificações distintas originadas dele, onde uma utiliza um seletor de features relevantes, outra um detector de concept drift e adaptação ativa, e a última modificação utiliza os dois simultaneamente. Para comparar estas variações, são apresentados os resultados dos testes em múltiplos cenários representados por datasets sintéticos e reais. Deste modo, o algoritmo utilizando apenas feature selection e adaptação passiva apresentou ganho de acurácia e diminuição do custo computacional, enquanto os algoritmos utilizando métodos de detecção de concept drift apresentaram um desempenho inferior ao demais algoritmos, na maioria dos casos. Esses resultados foram verificados utilizando o teste de Friedman com procedimento post-hoc, onde a modificação com apenas feature selection foi a única que mostrou diferença estatisticamente significativa sobre os outros algoritmo com grau de confiança de 0.10, enquanto os testes foram inconclusivos para os algoritmos que utilizaram adaptação ativa.Learning from data streams poses many challenges that are not present in conventional machine learning. The main problems addressed in this work are the datastream’s online nature and non stationarity, and its consequences: the possible changes in the generating function, that is also called a concept drift. This scenario creates the need for new algorithms that are able to adapt to these changes, which can happen in a gradual, or abrupt manner. But not limited to these anomalies, there is also the need to deal with the possibility of high dimensional data, added to the need for real time incremental learning. As an answer for these challenges, many solutions have been suggested in the state of the art, involving many mechanisms like feature selection and concept drift detection methods. Therefore, in this work we analyze the impact and viability of the adition of these mechanisms to classification algorithms, in relation to prediction power and computing cost. For this purpose, an ensemble classifier made of decision trees, equiped with a passive adapting method extern to the base learners, is proposed as a control algorithm, while three modifications originated by it are used as comparison, one using a relevant features selector, a second one using concept drift detector and active adapting, and the last one using both simultaneously. In order to compare these variations, the results of testing on multiple scenarios are presented, represented by testing on real and synthetic datasets. This way, the algorithm using only feature selection and passive adapting showed increases in accuracy and lower computing cost, while those equiped with active adaptation performed worse in most cases. These results were verified using a Friedman test with a post-hoc procedure, where the modification using only feature selection was the only one that showed statistically significant difference to the other algorithms with confidence level of 0.10, while the tests were inconclusive for those using active adapting.application/pdfporInteligência artificialDatastreamsDrift detectionFeature selectionFeature driftConcept driftClassificationMachine learningAnálise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evoluçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2019Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001098439.pdf.txt001098439.pdf.txtExtracted Texttext/plain99741http://www.lume.ufrgs.br/bitstream/10183/198497/2/001098439.pdf.txtd94c854e92f118ac611a0688072e981bMD52ORIGINAL001098439.pdfTexto completoapplication/pdf2223044http://www.lume.ufrgs.br/bitstream/10183/198497/1/001098439.pdfc9c5a173017091296832198fec17abb6MD5110183/1984972019-08-30 02:34:35.764005oai:www.lume.ufrgs.br:10183/198497Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2019-08-30T05:34:35Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
title Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
spellingShingle Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
Nunes, Andre Kenji Kagawa
Inteligência artificial
Datastreams
Drift detection
Feature selection
Feature drift
Concept drift
Classification
Machine learning
title_short Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
title_full Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
title_fullStr Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
title_full_unstemmed Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
title_sort Análise do impacto de feature selection e detecção de concept drift na classificação de fluxos de dados em evolução
author Nunes, Andre Kenji Kagawa
author_facet Nunes, Andre Kenji Kagawa
author_role author
dc.contributor.author.fl_str_mv Nunes, Andre Kenji Kagawa
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
dc.contributor.advisor-co1.fl_str_mv Bazzan, Ana Lucia Cetertich
contributor_str_mv Recamonde-Mendoza, Mariana
Bazzan, Ana Lucia Cetertich
dc.subject.por.fl_str_mv Inteligência artificial
topic Inteligência artificial
Datastreams
Drift detection
Feature selection
Feature drift
Concept drift
Classification
Machine learning
dc.subject.eng.fl_str_mv Datastreams
Drift detection
Feature selection
Feature drift
Concept drift
Classification
Machine learning
description O aprendizado a partir de fluxos de dados sofre de diversos problemas que não existem em outros cenários de aprendizado de máquina convencional. Os principais problemas tratados nesse trabalho são a sua natureza online e não estacionária, além de suas consequências: as possíveis mudanças na função geradora dos dados, que caracterizam um concept drift. Esse cenário cria a necessidade de novos algoritmos desevolvidos para se adaptar à essas possíveis mudanças, que podem ocorrer de maneira gradual ou abrupta. Mas não limitado a essas anomalias, também existe a necessidade de lidar com uma possível alta dimensionalidade dos dados somado à necessidade de realizar o aprendizado incrementalmente, e em tempo real. Como resposta a esses desafios, existem diferentes soluções no estado da arte, envolvendo variados mecanismos como feature selection e métodos de detecção de concept drift. Portanto, nesse trabalho é analisado o impacto e viabilidade da adição desses mecanismos à algoritmos de classificação, em relação ao custo computacional e poder preditivo. Para isso, é proposto um algoritmo de controle definido como um comitê de árvores de decisão equipado com adaptação passiva externa aos classificadores base, e três modificações distintas originadas dele, onde uma utiliza um seletor de features relevantes, outra um detector de concept drift e adaptação ativa, e a última modificação utiliza os dois simultaneamente. Para comparar estas variações, são apresentados os resultados dos testes em múltiplos cenários representados por datasets sintéticos e reais. Deste modo, o algoritmo utilizando apenas feature selection e adaptação passiva apresentou ganho de acurácia e diminuição do custo computacional, enquanto os algoritmos utilizando métodos de detecção de concept drift apresentaram um desempenho inferior ao demais algoritmos, na maioria dos casos. Esses resultados foram verificados utilizando o teste de Friedman com procedimento post-hoc, onde a modificação com apenas feature selection foi a única que mostrou diferença estatisticamente significativa sobre os outros algoritmo com grau de confiança de 0.10, enquanto os testes foram inconclusivos para os algoritmos que utilizaram adaptação ativa.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-08-29T02:34:33Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/198497
dc.identifier.nrb.pt_BR.fl_str_mv 001098439
url http://hdl.handle.net/10183/198497
identifier_str_mv 001098439
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/198497/2/001098439.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/198497/1/001098439.pdf
bitstream.checksum.fl_str_mv d94c854e92f118ac611a0688072e981b
c9c5a173017091296832198fec17abb6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224579524329472