Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1637208 |
Resumo: | Orientador: André Leon Sampaio Gradvohl |
id |
UNICAMP-30_ed62a51c90039de2cecee816616fafb6 |
---|---|
oai_identifier_str |
oai::1093349 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceitoPerformance evaluation of feature selection algorithms applied to data streams classification with concept driftAprendizado de máquinaAlgoritmos on-lineDesempenho - AvaliaçãoMachine learningOnline algorithmsPerformance - EvaluationOrientador: André Leon Sampaio GradvohlDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de TecnologiaResumo: Fluxos de Dados são dados gerados de modo contínuo, potencialmente infinito, em grande volume, alta velocidade e alta quantidade de atributos, tornando impraticável seu armazenamento em sistemas tradicionais. Nesse caso, os fluxos de dados precisam ser analisados e processados de modo on-line, na medida em que são recebidos, no menor tempo possível. Entretanto, por serem potencialmente infinitos, espera-se que a distribuição probabilística dos dados mude ao longo do tempo, fenômeno conhecido como Mudança de Conceito. Esse fenômeno torna o processo de análise de dados on-line completamente dinâmico. Uma forma de analisar esses fluxos é por meio da aplicação de algoritmos de classificação on-line, que categorizam os dados em diferentes classes para tomadas de decisão futuras. A alta quantidade de atributos dos fluxos, no entanto, dificulta o processo de classificação por aumentar o custo computacional e o tempo necessário para o aprendizado, além de agravar os impactos da mudança de conceito. Por isso, algoritmos de seleção de atributos on-line vêm sendo propostos na literatura, com o objetivo de reduzir a quantidade de atributos a partir da remoção de atributos irrelevantes ou redundantes para o processo de classificação. No entanto, esses algoritmos não foram avaliados em cenários de mudança de conceito, o que dificulta sua real utilização nesses cenários. Neste sentido, o objetivo inicial deste trabalho foi avaliar cinco algoritmos de seleção de atributos on-line propostos na literatura em cenários de mudança de conceito. A partir dos resultados obtidos, que demonstraram um baixo desempenho dos algoritmos comparados à utilização de um classificador base considerando o domínio completo de atributos, esta pesquisa identificou uma oportunidade de melhoria e propôs o algoritmo Modified Online Feature Selection. Trata-se de uma versão modificada do algoritmo Online Feature Selection, que utiliza regularização dinâmica para minimizar os impactos das mudanças de conceito no processo de seleção de atributos on-line. Os experimentos -- utilizando conjuntos de dados reais e artificiais com três tipos de mudanças de conceito -- apontam que o algoritmo proposto obteve acurácias até 13,73% superiores aos demais algoritmos, incluindo o classificador base que considerou o domínio completo de atributos, em cinco de sete cenáriosAbstract: Data streams are continuous, potentially unbounded and high-dimensional data, transmitted at high-volume and high-velocity, which turns impracticable its storage in traditional database mechanisms. In such cases, data streams have to be processed and analyzed online. However, as it is potentially unbounded, it is expected a change in data probabilistic distribution over time, a phenomenon is known as Concept Drift. The concept drift phenomenon turns the online data process and analysis completely dynamic. Using classification algorithms is one approach to learn from data streams, as it will categorize the data into different classes for future decisions. However, data streams high dimensionality imposes a challenge on the classification process, since it increases both computational cost and time, as well as aggravate the concept drift impacts. To solve this problem, online feature selection algorithms have been proposed to reduce data dimensionality by removing irrelevant and redundant attributes from the data streams. However, none of these algorithms were evaluated in concept drift environments. Therefore, this work firstly intended to verify which algorithm performed better in concept drift environments. From the obtained results, which showed low performance in comparison with a base classifier using all attributes, we identified an improvement opportunity. Therefore, in this work, we propose the Modified Online Feature Selection algorithm, a modified version of the Online Feature Selection algorithm, which uses dynamic regularization to minimize the concept drift impacts on the online feature selection process. The experiments using both real and artificial datasets showed the proposed algorithm obtained accuracies up to 13,73% better than the other algorithms, including the base classifier, in five out of seven scenariosMestradoSistemas de Informação e ComunicaçãoMestre em TecnologiaCAPES[s.n.]Gradvohl, André Leon Sampaio, 1973-Bertini Junior, João RobertoSousa, Elaine Parros Machado deUniversidade Estadual de Campinas (UNICAMP). Faculdade de TecnologiaPrograma de Pós-Graduação em TecnologiaUNIVERSIDADE ESTADUAL DE CAMPINASMoraes, Matheus Bernardelli de, 1992-20192019-08-14T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (95 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1637208MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1093349Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2019-10-02T15:22:48Zoai::1093349Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2019-10-02T15:22:48Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito Performance evaluation of feature selection algorithms applied to data streams classification with concept drift |
title |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
spellingShingle |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito Moraes, Matheus Bernardelli de, 1992- Aprendizado de máquina Algoritmos on-line Desempenho - Avaliação Machine learning Online algorithms Performance - Evaluation |
title_short |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
title_full |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
title_fullStr |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
title_full_unstemmed |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
title_sort |
Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito |
author |
Moraes, Matheus Bernardelli de, 1992- |
author_facet |
Moraes, Matheus Bernardelli de, 1992- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Gradvohl, André Leon Sampaio, 1973- Bertini Junior, João Roberto Sousa, Elaine Parros Machado de Universidade Estadual de Campinas (UNICAMP). Faculdade de Tecnologia Programa de Pós-Graduação em Tecnologia UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Moraes, Matheus Bernardelli de, 1992- |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Algoritmos on-line Desempenho - Avaliação Machine learning Online algorithms Performance - Evaluation |
topic |
Aprendizado de máquina Algoritmos on-line Desempenho - Avaliação Machine learning Online algorithms Performance - Evaluation |
description |
Orientador: André Leon Sampaio Gradvohl |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2019-08-14T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1637208 MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1637208 |
identifier_str_mv |
MORAES, Matheus Bernardelli de. Avaliação de desempenho de algoritmos de seleção de atributos aplicados à classificação de fluxos de dados com mudanças de conceito. 2019. 1 recurso online (95 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637208. Acesso em: 3 set. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1093349 Requisitos do sistema: Software para leitura de arquivo em PDF |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 1 recurso online (95 p.) : il., digital, arquivo PDF. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809189149931995136 |