Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos

Candido, Paulo Gustavo Lopes

Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos

Detalhes bibliográficos
Autor(a) principal:	Candido, Paulo Gustavo Lopes
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	LOCUS Repositório Institucional da UFV
Texto Completo:	http://www.locus.ufv.br/handle/123456789/25440
Resumo:	Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.

Metadados do item

id	UFV_afb68b5a5990568191689c3ad0c879fe
oai_identifier_str	oai:locus.ufv.br:123456789/25440
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str	2145
spelling	Paiva, Elaine Ribeiro de FariaSilva, Jonathan de AndradeCandido, Paulo Gustavo Lopeshttp://lattes.cnpq.br/5249796751753792Naldi, Murilo Coelho2019-05-23T17:06:47Z2019-05-23T17:06:47Z2018-12-21CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.http://www.locus.ufv.br/handle/123456789/25440Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.Advances in technology have been changing the way data is collected, stored and analyzed. New approaches have been used for unsupervised data clustering, such as real-time data clustering (data stream), and scalable data clustering. Both ap- proaches discard the storage of the whole dataset in main memory due to physical constraints, using techniques such as linear reading and distributed computing, res- pectively, to handle large volumes of data. Data stream clustering algorithms must deal with specific characteristics of this format: they are virtually and potentially unbounded and have a non-stationary distribution. Although little explored, te- chniques for dynamic estimation of the number of clusters have been shown to be effective in maintaining clustering models, since clusters may arise and disappear over time. Considering also a scenario with an exponential increase of the real-time generated data, there is a need for scalable algorithms to cluster data streams, able to estimate the number of clusters, in order to maintain a high level of quality. In this work, five algorithms are presented for this purpose, of which four are based on evolutionary computation. The MapReduce functional model is used to provide scalability across a distributed system, ensuring reliability, resilience, and fault- tolerance. The algorithms were experimented, analyzed and compared statistically in order to verify their quality and performance. The results show that the proposed algorithms are able to obtain high-quality models for high-speed data streams that need to be scaled, even with variations of distribution and number of clusters.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaAprendizado do computadorAnálise por comportamentoFluxo de dados (Computadores)Big dataComputação evolutivaMineração de dados (Computação)Ciência da ComputaçãoAgrupamento escalável de fluxos contínuos de dados com estimativa do número de gruposScalable data stream clustering with estimation of the number of clustersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2018-12-21Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1572785https://locus.ufv.br//bitstream/123456789/25440/1/texto%20completo.pdf34fecd3de55472fa6a35eec976b9a6a0MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/25440/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/254402019-05-23 14:17:55.301oai:locus.ufv.br:123456789/25440Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452019-05-23T17:17:55LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
dc.title.en.fl_str_mv	Scalable data stream clustering with estimation of the number of clusters
title	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
spellingShingle	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos Candido, Paulo Gustavo Lopes Aprendizado do computador Análise por comportamento Fluxo de dados (Computadores) Big data Computação evolutiva Mineração de dados (Computação) Ciência da Computação
title_short	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_full	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_fullStr	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_full_unstemmed	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
title_sort	Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos
author	Candido, Paulo Gustavo Lopes
author_facet	Candido, Paulo Gustavo Lopes
author_role	author
dc.contributor.authorLattes.pt-BR.fl_str_mv	http://lattes.cnpq.br/5249796751753792
dc.contributor.none.fl_str_mv	Paiva, Elaine Ribeiro de Faria Silva, Jonathan de Andrade
dc.contributor.author.fl_str_mv	Candido, Paulo Gustavo Lopes
dc.contributor.advisor1.fl_str_mv	Naldi, Murilo Coelho
contributor_str_mv	Naldi, Murilo Coelho
dc.subject.pt-BR.fl_str_mv	Aprendizado do computador Análise por comportamento Fluxo de dados (Computadores) Big data Computação evolutiva Mineração de dados (Computação)
topic	Aprendizado do computador Análise por comportamento Fluxo de dados (Computadores) Big data Computação evolutiva Mineração de dados (Computação) Ciência da Computação
dc.subject.cnpq.fl_str_mv	Ciência da Computação
description	Avanços da tecnologia têm mudado a forma como dados são coletados, armaze- nados e analisados. Novas abordagens têm sido utilizadas para agrupamento não supervisionado de dados, tais como agrupamento de dados gerados em tempo real (fluxos contínuos de dados), e agrupamento escalável de dados. Ambas as abor- dagens descartam o armazenamento do conjunto completo de dados em memória principal devido a restrições físicas, utilizando técnicas como leitura linear e com- putação distribuída, respectivamente, para lidar com grande volume de dados. O agrupamento de fluxos contínuos de dados precisa lidar com características especí- ficas desse formato: são virtualmente e potencialmente ilimitados e possuem uma distribuição não-estacionária. Apesar de pouco exploradas, técnicas para estimação dinâmica do número de grupos mostraram ser eficazes na manutenção dos mode- los de agrupamento, uma vez que grupos podem surgir e desaparecer ao longo do tempo. Considerando ainda um cenário de aumento exponencial na quantidade de dados gerados em tempo real, surge a necessidade de algoritmos escaláveis (capazes de distribuir o processamento) para agrupamento de fluxos de dados, capazes de estimar o número de grupos, a fim de manter um alto nível de qualidade. Neste trabalho são apresentados cinco algoritmos com essa finalidade, dos quais quatro são baseados na computação evolutiva. O modelo funcional MapReduce é utilizado para prover escalabilidade por meio de um sistema distribuído, garantindo confiabilidade, resiliência e tolerância a falhas. Os algoritmos foram experimentados, analisados e comparados estatisticamente a fim de verificar sua qualidade e desempenho. Os resultados mostram que os algoritmos propostos são capazes de obter modelos de alta qualidade para fluxos de dados de alta velocidade que precisem ser escalados, mesmo com variações de distribuição e número de grupos.
publishDate	2018
dc.date.issued.fl_str_mv	2018-12-21
dc.date.accessioned.fl_str_mv	2019-05-23T17:06:47Z
dc.date.available.fl_str_mv	2019-05-23T17:06:47Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
dc.identifier.uri.fl_str_mv	http://www.locus.ufv.br/handle/123456789/25440
identifier_str_mv	CÂNDIDO, Paulo Gustavo Lopes. Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos. 2018. 39 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2018.
url	http://www.locus.ufv.br/handle/123456789/25440
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv	https://locus.ufv.br//bitstream/123456789/25440/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/25440/2/license.txt
bitstream.checksum.fl_str_mv	34fecd3de55472fa6a35eec976b9a6a0 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1801213053084106752

Agrupamento escalável de fluxos contínuos de dados com estimativa do número de grupos

Registros relacionados