Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams

Detalhes bibliográficos
Autor(a) principal: Andrade, Thiago Eduardo Gouvêa, 1986-
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1634714
Resumo: Orientadores: Ana Estela Antunes da Silva, André Leon Sampaio Gradvohl
id UNICAMP-30_8485b42223e7b00d89f9624132a7a596
oai_identifier_str oai::1061251
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streamsImprovement on concept drift detection for online data streamsMineração de dados (Computação)Fluxo de dados (Computadores)Data miningData flow computingOrientadores: Ana Estela Antunes da Silva, André Leon Sampaio GradvohlDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de TecnologiaResumo: Algoritmos clássicos de mineração de dados podem apresentar uma capacidade limitada quando são utilizados em fluxos de dados online. Isso ocorre porque esse tipo de fluxos de dados não apresenta um comportamento estático, i.e. a quantidade de dados que chegará, a velocidade de chegada dos dados e a duração dos fluxos costumam ser fatores desconhecidos e podem mudar ao longo do tempo. Além disso, em ambientes de aplicações reais o padrão de dados também pode mudar ao longo do tempo. Essa mudança que ocorre no padrão dos dados é chamada de Concept Drift e torna desaconselhável a utilização dos algoritmos clássicos de mineração de dados para essa tarefa. Por isso, é importante desenvolver algoritmos que sejam capazes de lidar com situações em que os algoritmos clássicos de mineração de dados não apresentam um desempenho satisfatório. Com base nesses desafios pesquisadores têm buscado desenvolver algoritmos que sejam capazes de identificar Concept Drifts de maneira rápida, já que isso previne que ocorra uma perda grande de acurácia que é motivada por erros de identificação de um novo padrão das instâncias de dados. Também é importante que o algoritmo seja rápido para que não seja necessário armazenar em memória temporária algumas instâncias de dados que ainda não foram processadas. Motivado por esses desafios esse trabalho propõe três propostas de melhoria na tarefa de detecção de Concept Drift em fluxos de dados online: o Fading, o Reduced Boundary e uma melhoria no gerenciamento da janela de dados do algoritmo-base que é utilizado nesse trabalho, o EDIST2 (KHAMASSI, SAYED-MOUCHAWEH et al., 2015) . Com essas propostas de melhoria foi possível, em alguns cenários de execução, reduzir o tempo de CPU, o consumo de memória RAM e a acurácia média em relação ao EDIST2. Os resultados que foram encontrados podem ser considerados promissores já que o algoritmo EDIST2 teve um desempenho superior ao desempenho de algoritmos conhecidos em mineração de dados como DDM, EDDM e ADWIN em termos de acurácia média, tempo de CPU e consumo de memória RAMAbstract: Classic data mining algorithms can show a limited capacity whenever used with online data streams. It happens because an online data stream does not show a static behavior, i.e. the data quantity, the velocity of arriving data and the stream duration use to be unknown factors and can change over time. Besides that, in real application environments data pattern can change over time as well. This data pattern change is called Concept Drift and it is not advisable use classic data mining algorithms for this task. Therefore, it is important to develop algorithms capable of handle situations whenever classic data mining algorithms does not have enough performance. Based on these challenges, researchers have been seeking develop algorithms capable of quickly identify Concept Drifts, since it avoids an accuracy lost that is caused by identification errors of a new data instance pattern. It is also important that the algorithm would be quick enough in order to avoid allocating temporary memory spaces for some data instances were not processed yet. Motivated by these challenges, this work proposes three different approaches for detecting Concept Drift patterns within online data streaming: Fading, Reduced Boundary and the enhancement on managing data-window from the base algorithm used into this work, EDIST2 (KHAMASSI, SAYED-MOUCHAWEH et al., 2015). Given these enhancement proposals it was possible, in some implementation scenarios, to reduce CPU time and RAM memory consuming, and improve the average accuracy relative to EDIST2 algorithm. Results were found can be considered promising, since EDIST2 algorithm had a superior performance against known data mining algorithms, such as DDM, EDDM and ADWIN in terms of average accuracy, CPU speed and RAM memory consumptionMestradoSistemas de Informação e ComunicaçãoMestre em Tecnologia[s.n.]Silva, Ana Estela Antunes da, 1965-Gradvohl, André Leon Sampaio, 1973-Breve, Fabricio AparecidoRicarte, Ivan Luiz MarquesUniversidade Estadual de Campinas (UNICAMP). Faculdade de TecnologiaPrograma de Pós-Graduação em TecnologiaUNIVERSIDADE ESTADUAL DE CAMPINASAndrade, Thiago Eduardo Gouvêa, 1986-20182018-07-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (93 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1634714ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1061251Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2018-11-12T16:28:09Zoai::1061251Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2018-11-12T16:28:09Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
Improvement on concept drift detection for online data streams
title Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
spellingShingle Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
Andrade, Thiago Eduardo Gouvêa, 1986-
Mineração de dados (Computação)
Fluxo de dados (Computadores)
Data mining
Data flow computing
title_short Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
title_full Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
title_fullStr Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
title_full_unstemmed Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
title_sort Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
author Andrade, Thiago Eduardo Gouvêa, 1986-
author_facet Andrade, Thiago Eduardo Gouvêa, 1986-
author_role author
dc.contributor.none.fl_str_mv Silva, Ana Estela Antunes da, 1965-
Gradvohl, André Leon Sampaio, 1973-
Breve, Fabricio Aparecido
Ricarte, Ivan Luiz Marques
Universidade Estadual de Campinas (UNICAMP). Faculdade de Tecnologia
Programa de Pós-Graduação em Tecnologia
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Andrade, Thiago Eduardo Gouvêa, 1986-
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Fluxo de dados (Computadores)
Data mining
Data flow computing
topic Mineração de dados (Computação)
Fluxo de dados (Computadores)
Data mining
Data flow computing
description Orientadores: Ana Estela Antunes da Silva, André Leon Sampaio Gradvohl
publishDate 2018
dc.date.none.fl_str_mv 2018
2018-07-12T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1634714
ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1634714
identifier_str_mv ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1061251
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online (93 p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189132534022144