Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1634714 |
Resumo: | Orientadores: Ana Estela Antunes da Silva, André Leon Sampaio Gradvohl |
id |
UNICAMP-30_8485b42223e7b00d89f9624132a7a596 |
---|---|
oai_identifier_str |
oai::1061251 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streamsImprovement on concept drift detection for online data streamsMineração de dados (Computação)Fluxo de dados (Computadores)Data miningData flow computingOrientadores: Ana Estela Antunes da Silva, André Leon Sampaio GradvohlDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de TecnologiaResumo: Algoritmos clássicos de mineração de dados podem apresentar uma capacidade limitada quando são utilizados em fluxos de dados online. Isso ocorre porque esse tipo de fluxos de dados não apresenta um comportamento estático, i.e. a quantidade de dados que chegará, a velocidade de chegada dos dados e a duração dos fluxos costumam ser fatores desconhecidos e podem mudar ao longo do tempo. Além disso, em ambientes de aplicações reais o padrão de dados também pode mudar ao longo do tempo. Essa mudança que ocorre no padrão dos dados é chamada de Concept Drift e torna desaconselhável a utilização dos algoritmos clássicos de mineração de dados para essa tarefa. Por isso, é importante desenvolver algoritmos que sejam capazes de lidar com situações em que os algoritmos clássicos de mineração de dados não apresentam um desempenho satisfatório. Com base nesses desafios pesquisadores têm buscado desenvolver algoritmos que sejam capazes de identificar Concept Drifts de maneira rápida, já que isso previne que ocorra uma perda grande de acurácia que é motivada por erros de identificação de um novo padrão das instâncias de dados. Também é importante que o algoritmo seja rápido para que não seja necessário armazenar em memória temporária algumas instâncias de dados que ainda não foram processadas. Motivado por esses desafios esse trabalho propõe três propostas de melhoria na tarefa de detecção de Concept Drift em fluxos de dados online: o Fading, o Reduced Boundary e uma melhoria no gerenciamento da janela de dados do algoritmo-base que é utilizado nesse trabalho, o EDIST2 (KHAMASSI, SAYED-MOUCHAWEH et al., 2015) . Com essas propostas de melhoria foi possível, em alguns cenários de execução, reduzir o tempo de CPU, o consumo de memória RAM e a acurácia média em relação ao EDIST2. Os resultados que foram encontrados podem ser considerados promissores já que o algoritmo EDIST2 teve um desempenho superior ao desempenho de algoritmos conhecidos em mineração de dados como DDM, EDDM e ADWIN em termos de acurácia média, tempo de CPU e consumo de memória RAMAbstract: Classic data mining algorithms can show a limited capacity whenever used with online data streams. It happens because an online data stream does not show a static behavior, i.e. the data quantity, the velocity of arriving data and the stream duration use to be unknown factors and can change over time. Besides that, in real application environments data pattern can change over time as well. This data pattern change is called Concept Drift and it is not advisable use classic data mining algorithms for this task. Therefore, it is important to develop algorithms capable of handle situations whenever classic data mining algorithms does not have enough performance. Based on these challenges, researchers have been seeking develop algorithms capable of quickly identify Concept Drifts, since it avoids an accuracy lost that is caused by identification errors of a new data instance pattern. It is also important that the algorithm would be quick enough in order to avoid allocating temporary memory spaces for some data instances were not processed yet. Motivated by these challenges, this work proposes three different approaches for detecting Concept Drift patterns within online data streaming: Fading, Reduced Boundary and the enhancement on managing data-window from the base algorithm used into this work, EDIST2 (KHAMASSI, SAYED-MOUCHAWEH et al., 2015). Given these enhancement proposals it was possible, in some implementation scenarios, to reduce CPU time and RAM memory consuming, and improve the average accuracy relative to EDIST2 algorithm. Results were found can be considered promising, since EDIST2 algorithm had a superior performance against known data mining algorithms, such as DDM, EDDM and ADWIN in terms of average accuracy, CPU speed and RAM memory consumptionMestradoSistemas de Informação e ComunicaçãoMestre em Tecnologia[s.n.]Silva, Ana Estela Antunes da, 1965-Gradvohl, André Leon Sampaio, 1973-Breve, Fabricio AparecidoRicarte, Ivan Luiz MarquesUniversidade Estadual de Campinas (UNICAMP). Faculdade de TecnologiaPrograma de Pós-Graduação em TecnologiaUNIVERSIDADE ESTADUAL DE CAMPINASAndrade, Thiago Eduardo Gouvêa, 1986-20182018-07-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (93 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1634714ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1061251Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2018-11-12T16:28:09Zoai::1061251Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2018-11-12T16:28:09Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams Improvement on concept drift detection for online data streams |
title |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
spellingShingle |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams Andrade, Thiago Eduardo Gouvêa, 1986- Mineração de dados (Computação) Fluxo de dados (Computadores) Data mining Data flow computing |
title_short |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
title_full |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
title_fullStr |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
title_full_unstemmed |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
title_sort |
Melhoria na detecção de concept drift em fluxos de dados online : Improvement on concept drift detection for online data streams |
author |
Andrade, Thiago Eduardo Gouvêa, 1986- |
author_facet |
Andrade, Thiago Eduardo Gouvêa, 1986- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Silva, Ana Estela Antunes da, 1965- Gradvohl, André Leon Sampaio, 1973- Breve, Fabricio Aparecido Ricarte, Ivan Luiz Marques Universidade Estadual de Campinas (UNICAMP). Faculdade de Tecnologia Programa de Pós-Graduação em Tecnologia UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Andrade, Thiago Eduardo Gouvêa, 1986- |
dc.subject.por.fl_str_mv |
Mineração de dados (Computação) Fluxo de dados (Computadores) Data mining Data flow computing |
topic |
Mineração de dados (Computação) Fluxo de dados (Computadores) Data mining Data flow computing |
description |
Orientadores: Ana Estela Antunes da Silva, André Leon Sampaio Gradvohl |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 2018-07-12T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1634714 ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1634714 |
identifier_str_mv |
ANDRADE, Thiago Eduardo Gouvêa. Melhoria na detecção de concept drift em fluxos de dados online: Improvement on concept drift detection for online data streams. 2018. 1 recurso online (93 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia, Limeira, SP. Disponível em: https://hdl.handle.net/20.500.12733/1634714. Acesso em: 3 set. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1061251 Requisitos do sistema: Software para leitura de arquivo em PDF |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 1 recurso online (93 p.) : il., digital, arquivo PDF. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809189132534022144 |