Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://www.locus.ufv.br/handle/123456789/17942 |
Resumo: | Avanços da tecnologia acarretam na geração rápida e contínua de massivas quantida- des de dados. Tal cenário requer a criação de algoritmos de agrupamento incremen- tais para extração de conhecimento. Entre as restrições impostas a esses algoritmos, os mesmos devem ser capazes de detectar e tratar possíveis outliers que chegam ao fluxo. O arcabouço desenvolvido nesse trabalho apresenta uma estratégia para a restrição de tratamento e detecção de outliers na componente online dos algoritmos de agrupamento de fluxo de dados. A principal contribuição da proposta em estudo é a capacidade de validar possíveis outliers detectados previamente, com o intuito de manter um modelo sempre atualizado e com qualidade. Para isso, todos os potenci- ais outliers são armazenados em uma memória auxiliar que de tempos em tempos é verificada, agrupando seus objetos, validando os micro-grupos formados por inliers e inserindo-os no modelo. Todos os objetos restantes que não foram validados, são mantidos na memória auxiliar até que se tornem válidos ou obsoletos. Em seguida, objetos obsoletos são removidos. Este trabalho também propõe o CluStreamOD, uma extensão do algoritmo de agrupamento CluStream, que aplica a estratégia em estudo em sua componente online, para tratar outliers. Os experimentos realizados mostram a eficácia do CluStreamOD para detecção e tratamento online de outliers do fluxo em comparação com CluStream, e a potencialidade da abordagem proposta para ser aplicada em outros algoritmos de fluxo de dados baseados em micro-grupos. |
id |
UFV_628292e71069799be21aadd02664b9cd |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/17942 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Paiva, Elaine Ribeiro de FariaPereira, Mariana Alveshttp://lattes.cnpq.br/2723336078404906Naldi, Murilo Coelho2018-02-27T14:32:20Z2018-02-27T14:32:20Z2017-07-31PEREIRA, Mariana Alves. Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2017.http://www.locus.ufv.br/handle/123456789/17942Avanços da tecnologia acarretam na geração rápida e contínua de massivas quantida- des de dados. Tal cenário requer a criação de algoritmos de agrupamento incremen- tais para extração de conhecimento. Entre as restrições impostas a esses algoritmos, os mesmos devem ser capazes de detectar e tratar possíveis outliers que chegam ao fluxo. O arcabouço desenvolvido nesse trabalho apresenta uma estratégia para a restrição de tratamento e detecção de outliers na componente online dos algoritmos de agrupamento de fluxo de dados. A principal contribuição da proposta em estudo é a capacidade de validar possíveis outliers detectados previamente, com o intuito de manter um modelo sempre atualizado e com qualidade. Para isso, todos os potenci- ais outliers são armazenados em uma memória auxiliar que de tempos em tempos é verificada, agrupando seus objetos, validando os micro-grupos formados por inliers e inserindo-os no modelo. Todos os objetos restantes que não foram validados, são mantidos na memória auxiliar até que se tornem válidos ou obsoletos. Em seguida, objetos obsoletos são removidos. Este trabalho também propõe o CluStreamOD, uma extensão do algoritmo de agrupamento CluStream, que aplica a estratégia em estudo em sua componente online, para tratar outliers. Os experimentos realizados mostram a eficácia do CluStreamOD para detecção e tratamento online de outliers do fluxo em comparação com CluStream, e a potencialidade da abordagem proposta para ser aplicada em outros algoritmos de fluxo de dados baseados em micro-grupos.Advances in technology have led to the rapid and continuous generation of massive amounts of data. Such a scenario requires the creation of incremental clustering algorithms for knowledge extraction. Among the constraints imposed on these al- gorithms, they must be able to detect and treat possible outliers that arrive at the flow. The framework developed in this work presents a strategy for the restriction of treatment and detection of outliers in the online component of the clustering algorithms in data stream. The main contribution of the proposal under study is the ability to validate possible outliers previously detected, in order to maintain a model that is always updated and with quality. For this, all the potential outliers are stored in an auxiliary memory when for time to time is verified, clustering its objects, validating the formed micro-clusters by inserting them into the model. All remaining objects that have not been validated are held in auxiliary memory until they become valid or obsolete. Then obsolete objects are removed. This work also proposes the CluStreamOD, an extension of the CluStream clustering algorithm, which applies the strategy under study in its component online, to treat outliers. Experiments carried out show the efficacy of the CluStreamOD for online detection and treatment of the outliers in the data streams compared to CluStream, and the potentiality of the proposed approach to be applied in other algorithms in data stream based on micro-clusters.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaDetecção de outliersFluxos contínuos de dadosAgrupamentoComponente onlineCiência da ComputaçãoArcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dadosA framework for online detection of outliers in clusters of continuous data streaminginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2017-07-31Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1919837https://locus.ufv.br//bitstream/123456789/17942/1/texto%20completo.pdf88b24ab33cb2eb64595fbfbf8ffeb254MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/17942/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3693https://locus.ufv.br//bitstream/123456789/17942/3/texto%20completo.pdf.jpg263740b1e511d4050ff3d797d3248276MD53123456789/179422018-02-27 23:00:34.725oai:locus.ufv.br:123456789/17942Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452018-02-28T02:00:34LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
dc.title.en.fl_str_mv |
A framework for online detection of outliers in clusters of continuous data streaming |
title |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
spellingShingle |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados Pereira, Mariana Alves Detecção de outliers Fluxos contínuos de dados Agrupamento Componente online Ciência da Computação |
title_short |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
title_full |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
title_fullStr |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
title_full_unstemmed |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
title_sort |
Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados |
author |
Pereira, Mariana Alves |
author_facet |
Pereira, Mariana Alves |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/2723336078404906 |
dc.contributor.none.fl_str_mv |
Paiva, Elaine Ribeiro de Faria |
dc.contributor.author.fl_str_mv |
Pereira, Mariana Alves |
dc.contributor.advisor1.fl_str_mv |
Naldi, Murilo Coelho |
contributor_str_mv |
Naldi, Murilo Coelho |
dc.subject.pt-BR.fl_str_mv |
Detecção de outliers Fluxos contínuos de dados Agrupamento Componente online |
topic |
Detecção de outliers Fluxos contínuos de dados Agrupamento Componente online Ciência da Computação |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
Avanços da tecnologia acarretam na geração rápida e contínua de massivas quantida- des de dados. Tal cenário requer a criação de algoritmos de agrupamento incremen- tais para extração de conhecimento. Entre as restrições impostas a esses algoritmos, os mesmos devem ser capazes de detectar e tratar possíveis outliers que chegam ao fluxo. O arcabouço desenvolvido nesse trabalho apresenta uma estratégia para a restrição de tratamento e detecção de outliers na componente online dos algoritmos de agrupamento de fluxo de dados. A principal contribuição da proposta em estudo é a capacidade de validar possíveis outliers detectados previamente, com o intuito de manter um modelo sempre atualizado e com qualidade. Para isso, todos os potenci- ais outliers são armazenados em uma memória auxiliar que de tempos em tempos é verificada, agrupando seus objetos, validando os micro-grupos formados por inliers e inserindo-os no modelo. Todos os objetos restantes que não foram validados, são mantidos na memória auxiliar até que se tornem válidos ou obsoletos. Em seguida, objetos obsoletos são removidos. Este trabalho também propõe o CluStreamOD, uma extensão do algoritmo de agrupamento CluStream, que aplica a estratégia em estudo em sua componente online, para tratar outliers. Os experimentos realizados mostram a eficácia do CluStreamOD para detecção e tratamento online de outliers do fluxo em comparação com CluStream, e a potencialidade da abordagem proposta para ser aplicada em outros algoritmos de fluxo de dados baseados em micro-grupos. |
publishDate |
2017 |
dc.date.issued.fl_str_mv |
2017-07-31 |
dc.date.accessioned.fl_str_mv |
2018-02-27T14:32:20Z |
dc.date.available.fl_str_mv |
2018-02-27T14:32:20Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PEREIRA, Mariana Alves. Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2017. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/17942 |
identifier_str_mv |
PEREIRA, Mariana Alves. Arcabouço para detecção online de outliers para algoritmos de agrupamento em fluxos contínuos de dados. 2017. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2017. |
url |
http://www.locus.ufv.br/handle/123456789/17942 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/17942/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/17942/2/license.txt https://locus.ufv.br//bitstream/123456789/17942/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
88b24ab33cb2eb64595fbfbf8ffeb254 8a4605be74aa9ea9d79846c1fba20a33 263740b1e511d4050ff3d797d3248276 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212974427275264 |