Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito

Detalhes bibliográficos
Autor(a) principal: Moraes, Matheus Bernardelli de, 1992-
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1637208
Resumo: Orientador: André Leon Sampaio Gradvohl
id UNICAMP-30_ed62a51c90039de2cecee816616fafb6
oai_identifier_str oai::1093349
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceitoPerformance evaluation of feature selection algorithms applied to data streams classification with concept driftAprendizado de máquinaAlgoritmos on-lineDesempenho - AvaliaçãoMachine learningOnline algorithmsPerformance - EvaluationOrientador: André Leon Sampaio GradvohlDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de TecnologiaResumo: Fluxos de Dados são dados gerados de modo contínuo, potencialmente infinito, em grande volume, alta velocidade e alta quantidade de atributos, tornando impraticável seu armazenamento em sistemas tradicionais. Nesse caso, os fluxos de dados precisam ser analisados e processados de modo on-line, na medida em que são recebidos, no menor tempo possível. Entretanto, por serem potencialmente infinitos, espera-se que a distribuição probabilística dos dados mude ao longo do tempo, fenômeno conhecido como Mudança de Conceito. Esse fenômeno torna o processo de análise de dados on-line completamente dinâmico. Uma forma de analisar esses fluxos é por meio da aplicação de algoritmos de classificação on-line, que categorizam os dados em diferentes classes para tomadas de decisão futuras. A alta quantidade de atributos dos fluxos, no entanto, dificulta o processo de classificação por aumentar o custo computacional e o tempo necessário para o aprendizado, além de agravar os impactos da mudança de conceito. Por isso, algoritmos de seleção de atributos on-line vêm sendo propostos na literatura, com o objetivo de reduzir a quantidade de atributos a partir da remoção de atributos irrelevantes ou redundantes para o processo de classificação. No entanto, esses algoritmos não foram avaliados em cenários de mudança de conceito, o que dificulta sua real utilização nesses cenários. Neste sentido, o objetivo inicial deste trabalho foi avaliar cinco algoritmos de seleção de atributos on-line propostos na literatura em cenários de mudança de conceito. A partir dos resultados obtidos, que demonstraram um baixo desempenho dos algoritmos comparados à utilização de um classificador base considerando o domínio completo de atributos, esta pesquisa identificou uma oportunidade de melhoria e propôs o algoritmo Modified Online Feature Selection. Trata-se de uma versão modificada do algoritmo Online Feature Selection, que utiliza regularização dinâmica para minimizar os impactos das mudanças de conceito no processo de seleção de atributos on-line. Os experimentos -- utilizando conjuntos de dados reais e artificiais com três tipos de mudanças de conceito -- apontam que o algoritmo proposto obteve acurácias até 13,73% superiores aos demais algoritmos, incluindo o classificador base que considerou o domínio completo de atributos, em cinco de sete cenáriosAbstract: Data streams are continuous, potentially unbounded and high-dimensional data, transmitted at high-volume and high-velocity, which turns impracticable its storage in traditional database mechanisms. In such cases, data streams have to be processed and analyzed online. However, as it is potentially unbounded, it is expected a change in data probabilistic distribution over time, a phenomenon is known as Concept Drift. The concept drift phenomenon turns the online data process and analysis completely dynamic. Using classification algorithms is one approach to learn from data streams, as it will categorize the data into different classes for future decisions. However, data streams high dimensionality imposes a challenge on the classification process, since it increases both computational cost and time, as well as aggravate the concept drift impacts. To solve this problem, online feature selection algorithms have been proposed to reduce data dimensionality by removing irrelevant and redundant attributes from the data streams. However, none of these algorithms were evaluated in concept drift environments. Therefore, this work firstly intended to verify which algorithm performed better in concept drift environments. From the obtained results, which showed low performance in comparison with a base classifier using all attributes, we identified an improvement opportunity. Therefore, in this work, we propose the Modified Online Feature Selection algorithm, a modified version of the Online Feature Selection algorithm, which uses dynamic regularization to minimize the concept drift impacts on the online feature selection process. The experiments using both real and artificial datasets showed the proposed algorithm obtained accuracies up to 13,73% better than the other algorithms, including the base classifier, in five out of seven scenariosMestradoSistemas de Informação e ComunicaçãoMestre em TecnologiaCAPES[s.n.]Gradvohl, André Leon Sampaio, 1973-Bertini Junior, João RobertoSousa, Elaine Parros Machado deUniversidade Estadual de Campinas (UNICAMP). Faculdade de TecnologiaPrograma de Pós-Graduação em TecnologiaUNIVERSIDADE ESTADUAL DE CAMPINASMoraes, Matheus Bernardelli de, 1992-20192019-08-14T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (95 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1637208MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1093349Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2019-10-02T15:22:48Zoai::1093349Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2019-10-02T15:22:48Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
Performance evaluation of feature selection algorithms applied to data streams classification with concept drift
title Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
spellingShingle Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
Moraes, Matheus Bernardelli de, 1992-
Aprendizado de máquina
Algoritmos on-line
Desempenho - Avaliação
Machine learning
Online algorithms
Performance - Evaluation
title_short Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
title_full Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
title_fullStr Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
title_full_unstemmed Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
title_sort Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
author Moraes, Matheus Bernardelli de, 1992-
author_facet Moraes, Matheus Bernardelli de, 1992-
author_role author
dc.contributor.none.fl_str_mv Gradvohl, André Leon Sampaio, 1973-
Bertini Junior, João Roberto
Sousa, Elaine Parros Machado de
Universidade Estadual de Campinas (UNICAMP). Faculdade de Tecnologia
Programa de Pós-Graduação em Tecnologia
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Moraes, Matheus Bernardelli de, 1992-
dc.subject.por.fl_str_mv Aprendizado de máquina
Algoritmos on-line
Desempenho - Avaliação
Machine learning
Online algorithms
Performance - Evaluation
topic Aprendizado de máquina
Algoritmos on-line
Desempenho - Avaliação
Machine learning
Online algorithms
Performance - Evaluation
description Orientador: André Leon Sampaio Gradvohl
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-08-14T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1637208
MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1637208
identifier_str_mv MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1093349
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online (95 p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189149931995136