Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA

Detalhes bibliográficos
Autor(a) principal: Santana, Diego Michael Almeida
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFS
Texto Completo: http://ri.ufs.br/jspui/handle/riufs/12496
Resumo: The increasing volume of data available on the Internet (Big Data) creates an urgent need for management. In this sense, generating knowledge from these data becomes an even greater computational challenge. To mitigate, techniques are applied in the Data Mining field as the Data Clustering methods. However, the performance of these techniques against Big Data is not satisfactory in relation to the execution time, since the traditional algorithms are sequential or synchronous, so this research seeks to explore new ways to accelerate the algorithms of Data Clustering as the implementation of Parallel Computing resources. Therefore, CUDA technology was selected after a review of the main parallelization techniques and what results were achieved. With the effect of increasing scalability for large data sets and performing a performance comparison, then a parallel version of the Dynamic Hard Clustering Algorithm with Relevance Weight for each Dissimilarity Matrix Estimated Locally (MRDCA-RWL) has been implemented. In this way, the experiments used ten known data sets and available in the UC Irvine repository. Therefore, the parallel version proposed by this work obtained an average acceleration of 16.7 times in the execution time, which represents a significant leap in the performance of the algorithm.
id UFS-2_6f96abfca55605bc0b7c4b74eca72c27
oai_identifier_str oai:ufs.br:riufs/12496
network_acronym_str UFS-2
network_name_str Repositório Institucional da UFS
repository_id_str
spelling Santana, Diego Michael AlmeidaGusmão, Renê Pereira de2019-12-16T11:53:43Z2019-12-16T11:53:43Z2019-10-17Santana, Diego Michael Almeida. Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA. São Cristóvão, SE, 2019. Monografia (graduação em Sistema de Informações) – Curso de Sistemas de Informação, Departamento de Computação, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, 2019http://ri.ufs.br/jspui/handle/riufs/12496The increasing volume of data available on the Internet (Big Data) creates an urgent need for management. In this sense, generating knowledge from these data becomes an even greater computational challenge. To mitigate, techniques are applied in the Data Mining field as the Data Clustering methods. However, the performance of these techniques against Big Data is not satisfactory in relation to the execution time, since the traditional algorithms are sequential or synchronous, so this research seeks to explore new ways to accelerate the algorithms of Data Clustering as the implementation of Parallel Computing resources. Therefore, CUDA technology was selected after a review of the main parallelization techniques and what results were achieved. With the effect of increasing scalability for large data sets and performing a performance comparison, then a parallel version of the Dynamic Hard Clustering Algorithm with Relevance Weight for each Dissimilarity Matrix Estimated Locally (MRDCA-RWL) has been implemented. In this way, the experiments used ten known data sets and available in the UC Irvine repository. Therefore, the parallel version proposed by this work obtained an average acceleration of 16.7 times in the execution time, which represents a significant leap in the performance of the algorithm.O aumento crescente do volume de dados disponíveis na Internet (Big Data) cria uma necessidade urgente de gerenciamento. Nesse sentido, gerar conhecimento a partir desses dados se torna um desafio computacional ainda maior. Para mitigar, são aplicadas técnicas no campo da Mineração de Dados como os métodos de Agrupamento de Dados (Data Clustering). Contudo, o desempenho dessas técnicas frente ao Big Data não se mostra satisfatório em relação ao tempo de execução, uma vez que os algoritmos tradicionais são sequenciais ou síncronos, então esta pesquisa procura explorar novas formas de acelerar os algoritmos de Agrupamento de Dados como a implementação de recursos da Computação Paralela. Assim sendo, a tecnologia CUDA foi selecionada após uma revisão das principais técnicas de paralelização e quais resultados foram alcançados. Com efeito de aumentar a escalabilidade para grandes conjuntos de dados e realizar uma comparação de desempenho, então uma versão paralela do Algoritmo Dinâmico de Agrupamento Rígido com Peso de Relevância para cada Matriz de Dissimilaridade Estimada Localmente (MRDCA-RWL) foi implementada. Dessa forma, os experimentos utilizaram dez conjuntos de dados conhecidos e disponíveis no repositório da UC Irvine. Logo, a versão paralela proposta por este trabalho obteve uma aceleração média de 16,7 vezes no tempo de execução, o que representa um salto significativo no desempenho do algoritmo.São Cristóvão, SEporSistemas de informaçãoEnsino de sistemas de informaçãoAgrupamento de dadosComputação paralelaBig DataData clusteringParallel computingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOParalelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDAinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal de SergipeDCOMP - Departamento de Computação – Sistemas de Informação – São Cristóvão - Presencialreponame:Repositório Institucional da UFSinstname:Universidade Federal de Sergipe (UFS)instacron:UFSinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81475https://ri.ufs.br/jspui/bitstream/riufs/12496/1/license.txt098cbbf65c2c15e1fb2e49c5d306a44cMD51ORIGINALDiego_Michael_Almeida_Santana.pdfDiego_Michael_Almeida_Santana.pdfapplication/pdf771620https://ri.ufs.br/jspui/bitstream/riufs/12496/2/Diego_Michael_Almeida_Santana.pdf522a178829a59ee342f8bd064b4a319eMD52TEXTDiego_Michael_Almeida_Santana.pdf.txtDiego_Michael_Almeida_Santana.pdf.txtExtracted texttext/plain80623https://ri.ufs.br/jspui/bitstream/riufs/12496/3/Diego_Michael_Almeida_Santana.pdf.txtcb276cdf8b685b72d3a425f5d9b71260MD53THUMBNAILDiego_Michael_Almeida_Santana.pdf.jpgDiego_Michael_Almeida_Santana.pdf.jpgGenerated Thumbnailimage/jpeg1343https://ri.ufs.br/jspui/bitstream/riufs/12496/4/Diego_Michael_Almeida_Santana.pdf.jpg326c804300363274649e51afff32d4d6MD54riufs/124962019-12-16 08:53:44.154oai:ufs.br:riufs/12496TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvcihlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyIHNldSB0cmFiYWxobyBubyBmb3JtYXRvIGVsZXRyw7RuaWNvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFNlcmdpcGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0bywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgbsOjbyBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gbyB0cmFiYWxobyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuIAo=Repositório InstitucionalPUBhttps://ri.ufs.br/oai/requestrepositorio@academico.ufs.bropendoar:2019-12-16T11:53:44Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)false
dc.title.pt_BR.fl_str_mv Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
title Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
spellingShingle Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
Santana, Diego Michael Almeida
Sistemas de informação
Ensino de sistemas de informação
Agrupamento de dados
Computação paralela
Big Data
Data clustering
Parallel computing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
title_short Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
title_full Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
title_fullStr Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
title_full_unstemmed Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
title_sort Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
author Santana, Diego Michael Almeida
author_facet Santana, Diego Michael Almeida
author_role author
dc.contributor.author.fl_str_mv Santana, Diego Michael Almeida
dc.contributor.advisor1.fl_str_mv Gusmão, Renê Pereira de
contributor_str_mv Gusmão, Renê Pereira de
dc.subject.por.fl_str_mv Sistemas de informação
Ensino de sistemas de informação
Agrupamento de dados
Computação paralela
Big Data
topic Sistemas de informação
Ensino de sistemas de informação
Agrupamento de dados
Computação paralela
Big Data
Data clustering
Parallel computing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
dc.subject.eng.fl_str_mv Data clustering
Parallel computing
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
description The increasing volume of data available on the Internet (Big Data) creates an urgent need for management. In this sense, generating knowledge from these data becomes an even greater computational challenge. To mitigate, techniques are applied in the Data Mining field as the Data Clustering methods. However, the performance of these techniques against Big Data is not satisfactory in relation to the execution time, since the traditional algorithms are sequential or synchronous, so this research seeks to explore new ways to accelerate the algorithms of Data Clustering as the implementation of Parallel Computing resources. Therefore, CUDA technology was selected after a review of the main parallelization techniques and what results were achieved. With the effect of increasing scalability for large data sets and performing a performance comparison, then a parallel version of the Dynamic Hard Clustering Algorithm with Relevance Weight for each Dissimilarity Matrix Estimated Locally (MRDCA-RWL) has been implemented. In this way, the experiments used ten known data sets and available in the UC Irvine repository. Therefore, the parallel version proposed by this work obtained an average acceleration of 16.7 times in the execution time, which represents a significant leap in the performance of the algorithm.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-12-16T11:53:43Z
dc.date.available.fl_str_mv 2019-12-16T11:53:43Z
dc.date.issued.fl_str_mv 2019-10-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Santana, Diego Michael Almeida. Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA. São Cristóvão, SE, 2019. Monografia (graduação em Sistema de Informações) – Curso de Sistemas de Informação, Departamento de Computação, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, 2019
dc.identifier.uri.fl_str_mv http://ri.ufs.br/jspui/handle/riufs/12496
identifier_str_mv Santana, Diego Michael Almeida. Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA. São Cristóvão, SE, 2019. Monografia (graduação em Sistema de Informações) – Curso de Sistemas de Informação, Departamento de Computação, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, 2019
url http://ri.ufs.br/jspui/handle/riufs/12496
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.initials.fl_str_mv Universidade Federal de Sergipe
dc.publisher.department.fl_str_mv DCOMP - Departamento de Computação – Sistemas de Informação – São Cristóvão - Presencial
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFS
instname:Universidade Federal de Sergipe (UFS)
instacron:UFS
instname_str Universidade Federal de Sergipe (UFS)
instacron_str UFS
institution UFS
reponame_str Repositório Institucional da UFS
collection Repositório Institucional da UFS
bitstream.url.fl_str_mv https://ri.ufs.br/jspui/bitstream/riufs/12496/1/license.txt
https://ri.ufs.br/jspui/bitstream/riufs/12496/2/Diego_Michael_Almeida_Santana.pdf
https://ri.ufs.br/jspui/bitstream/riufs/12496/3/Diego_Michael_Almeida_Santana.pdf.txt
https://ri.ufs.br/jspui/bitstream/riufs/12496/4/Diego_Michael_Almeida_Santana.pdf.jpg
bitstream.checksum.fl_str_mv 098cbbf65c2c15e1fb2e49c5d306a44c
522a178829a59ee342f8bd064b4a319e
cb276cdf8b685b72d3a425f5d9b71260
326c804300363274649e51afff32d4d6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)
repository.mail.fl_str_mv repositorio@academico.ufs.br
_version_ 1802110683221852160