Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos

Detalhes bibliográficos
Autor(a) principal: Candido, Paulo Gustavo Lopes
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: http://www.locus.ufv.br/handle/123456789/25440
Resumo: Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.
id UFV_afb68b5a5990568191689c3ad0c879fe
oai_identifier_str oai:locus.ufv.br:123456789/25440
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Paiva, Elaine Ribeiro de FariaSilva, Jonathan de AndradeCandido, Paulo Gustavo Lopeshttp://lattes.cnpq.br/5249796751753792Naldi, Murilo Coelho2019-05-23T17:06:47Z2019-05-23T17:06:47Z2018-12-21CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.http://www.locus.ufv.br/handle/123456789/25440Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.Advances in technology have been changing the way data is collected, stored and analyzed. New approaches have been used for unsupervised data clustering, such as real-time data clustering (data stream), and scalable data clustering. Both ap- proaches discard the storage of the whole dataset in main memory due to physical constraints, using techniques such as linear reading and distributed computing, res- pectively, to handle large volumes of data. Data stream clustering algorithms must deal with specific characteristics of this format: they are virtually and potentially unbounded and have a non-stationary distribution. Although little explored, te- chniques for dynamic estimation of the number of clusters have been shown to be effective in maintaining clustering models, since clusters may arise and disappear over time. Considering also a scenario with an exponential increase of the real-time generated data, there is a need for scalable algorithms to cluster data streams, able to estimate the number of clusters, in order to maintain a high level of quality. In this work, five algorithms are presented for this purpose, of which four are based on evolutionary computation. The MapReduce functional model is used to provide scalability across a distributed system, ensuring reliability, resilience, and fault- tolerance. The algorithms were experimented, analyzed and compared statistically in order to verify their quality and performance. The results show that the proposed algorithms are able to obtain high-quality models for high-speed data streams that need to be scaled, even with variations of distribution and number of clusters.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaAprendizado do computadorAnálise por comportamentoFluxo de dados (Computadores)Big dataComputação evolutivaMineração de dados (Computação)Ciência da ComputaçãoAgrupamento escalável de fluxos contínuos de dados com estimativa do número de gruposScalable data stream clustering with estimation of the number of clustersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2018-12-21Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1572785https://locus.ufv.br//bitstream/123456789/25440/1/texto%20completo.pdf34fecd3de55472fa6a35eec976b9a6a0MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/25440/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/254402019-05-23 14:17:55.301oai:locus.ufv.br:123456789/25440Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452019-05-23T17:17:55LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
dc.title.en.fl_str_mv Scalable data stream clustering with estimation of the number of clusters
title Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
spellingShingle Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
Candido, Paulo Gustavo Lopes
Aprendizado do computador
Análise por comportamento
Fluxo de dados (Computadores)
Big data
Computação evolutiva
Mineração de dados (Computação)
Ciência da Computação
title_short Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_full Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_fullStr Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_full_unstemmed Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_sort Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
author Candido, Paulo Gustavo Lopes
author_facet Candido, Paulo Gustavo Lopes
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/5249796751753792
dc.contributor.none.fl_str_mv Paiva, Elaine Ribeiro de Faria
Silva, Jonathan de Andrade
dc.contributor.author.fl_str_mv Candido, Paulo Gustavo Lopes
dc.contributor.advisor1.fl_str_mv Naldi, Murilo Coelho
contributor_str_mv Naldi, Murilo Coelho
dc.subject.pt-BR.fl_str_mv Aprendizado do computador
Análise por comportamento
Fluxo de dados (Computadores)
Big data
Computação evolutiva
Mineração de dados (Computação)
topic Aprendizado do computador
Análise por comportamento
Fluxo de dados (Computadores)
Big data
Computação evolutiva
Mineração de dados (Computação)
Ciência da Computação
dc.subject.cnpq.fl_str_mv Ciência da Computação
description Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.
publishDate 2018
dc.date.issued.fl_str_mv 2018-12-21
dc.date.accessioned.fl_str_mv 2019-05-23T17:06:47Z
dc.date.available.fl_str_mv 2019-05-23T17:06:47Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
dc.identifier.uri.fl_str_mv http://www.locus.ufv.br/handle/123456789/25440
identifier_str_mv CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
url http://www.locus.ufv.br/handle/123456789/25440
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/25440/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/25440/2/license.txt
bitstream.checksum.fl_str_mv 34fecd3de55472fa6a35eec976b9a6a0
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801213053084106752