Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados

Detalhes bibliográficos
Autor(a) principal: Daniel, Guilherme Priólli [UNESP]
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/143832
Resumo: A quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais.
id UNSP_b55df0d13c9f396eeaeb6ac69919ab33
oai_identifier_str oai:repositorio.unesp.br:11449/143832
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dadosOptimization of Density-Based Spatial Clustering Algorithms Applied to Large Data SetsVDBSCAN-MROVDBSCAN-MRBig DataProspecção de dados espaciaisSpatial Data MiningAgrupamento EspacialSpatial ClusteringMapReduceA quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais.The amount of data managed by large-scale Web services has increased significantly and it arise to the status of Big Data. These data sets can be defined as a large volume of complex data from multiple data sources exceeding the storage and processing capacity of current computers. In such data sets, about 80% of the data is associated with some spatial position. Spatial data is even more complex and require more processing time than what would be required for alphanumeric data. In that sense, MapReduce techniques and their implementation have returned results timely with parallelization of data mining algorithms and could apply for Big Data sets. Therefore, this work develops two density-based spatial clustering algorithms: VDBSCAN-MR and OVDBSCAN-MR. Both algorithms use distributed and scalable processing techniques based on the MapReduce programming model in order to optimize performance and enable Big Data analysis. Throughout experimentation, we observed that the developed algorithms have better quality clusters compared to the base algorithms. Furthermore, VDBSCAN-MR achieved a better performance than the original sequential algorithm and it supported the application on large spatial data sets.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Daniel, Guilherme Priólli [UNESP]2016-09-09T17:54:56Z2016-09-09T17:54:56Z2016-08-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/14383200087239933004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-01T06:13:44Zoai:repositorio.unesp.br:11449/143832Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-12-01T06:13:44Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
Optimization of Density-Based Spatial Clustering Algorithms Applied to Large Data Sets
title Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
spellingShingle Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
Daniel, Guilherme Priólli [UNESP]
VDBSCAN-MR
OVDBSCAN-MR
Big Data
Prospecção de dados espaciais
Spatial Data Mining
Agrupamento Espacial
Spatial Clustering
MapReduce
title_short Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_full Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_fullStr Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_full_unstemmed Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_sort Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
author Daniel, Guilherme Priólli [UNESP]
author_facet Daniel, Guilherme Priólli [UNESP]
author_role author
dc.contributor.none.fl_str_mv Valêncio, Carlos Roberto [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Daniel, Guilherme Priólli [UNESP]
dc.subject.por.fl_str_mv VDBSCAN-MR
OVDBSCAN-MR
Big Data
Prospecção de dados espaciais
Spatial Data Mining
Agrupamento Espacial
Spatial Clustering
MapReduce
topic VDBSCAN-MR
OVDBSCAN-MR
Big Data
Prospecção de dados espaciais
Spatial Data Mining
Agrupamento Espacial
Spatial Clustering
MapReduce
description A quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais.
publishDate 2016
dc.date.none.fl_str_mv 2016-09-09T17:54:56Z
2016-09-09T17:54:56Z
2016-08-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/143832
000872399
33004153073P2
url http://hdl.handle.net/11449/143832
identifier_str_mv 000872399
33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803649866148085760