Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP

Detalhes bibliográficos
Autor(a) principal: Ribeiro Filho, Napoleão Póvoa
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFT
Texto Completo: http://hdl.handle.net/11612/974
Resumo: O problema de clusterização (agrupamento) consiste em, a partir de uma base de dados, agrupar os elementos de modo que os mais similares fiquem no mesmo cluster (grupo), e os elementos menos similares fiquem em clusters distintos. Há várias maneiras de se realizar esses agrupamentos. Uma das mais populares é a hierárquica, onde é criada uma hierarquia de relacionamentos entre os elementos. Há vários métodos de se analisar a similaridade entre elementos no problema de clusterização. O mais utilizado entre eles é o método single linkage, que agrupa os elementos que apresentarem menor distância entre si. Para se aplicar a técnica em questão, uma matriz de distâncias é a entrada utilizada. Esse processo de agrupamento gera ao final uma árvore invertida conhecida como dendrograma. O coeficiente de correlação cofenética (ccc), obtido após a construção do dendrograma, é utilizado para avaliar a consistência dos agrupamentos gerados e indica o quão fiel o dendrograma está em relação aos dados originais. Dessa forma, um dendrograma apresenta agrupamentos mais consistentes quando o ccc for o mais próximo de um (1) . O problema de clusterização em todas as suas vertentes, inclusive a clusterização hierárquica (objeto de estudo nesse trabalho), pertence a classe de problemas NP-Completo. Assim sendo, é comum o uso de heurísticas para obter soluções de modo eficiente para esse problema. Com o objetivo de gerar dendrogramas que resultem em melhores ccc, é proposto no presente trabalho um novo algoritmo que utiliza os conceitos da metaheurística GRASP. Também é objetivo deste trabalho implementar tal solução em computação paralela em um cluster computacional, permitindo assim trabalhar com matrizes de dimensões maiores. Testes foram realizados para comprovar o desempenho do algoritmo proposto, comparando os resultados obtidos com os gerados pelo software R.
id UFT_096c9623ba43737744471aa7b6677e48
oai_identifier_str oai:repositorio.uft.edu.br:11612/974
network_acronym_str UFT
network_name_str Repositório Institucional da UFT
repository_id_str
spelling Ribeiro Filho, Napoleão PóvoaRocha, Marcelo Lisboa2018-08-03T18:48:07Z2018-08-03T18:48:07Z2016-03-30RIBEIRO FILHO, Napoleão Póvoa. Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP.2016. 58f. Dissertação (Mestrado em Modelagem Computacional e Sistemas) – Universidade Federal do Tocantins, Programa de Pós-graduação em Modelagem Computacional e Sistemas, Palmas, 2016.http://hdl.handle.net/11612/974O problema de clusterização (agrupamento) consiste em, a partir de uma base de dados, agrupar os elementos de modo que os mais similares fiquem no mesmo cluster (grupo), e os elementos menos similares fiquem em clusters distintos. Há várias maneiras de se realizar esses agrupamentos. Uma das mais populares é a hierárquica, onde é criada uma hierarquia de relacionamentos entre os elementos. Há vários métodos de se analisar a similaridade entre elementos no problema de clusterização. O mais utilizado entre eles é o método single linkage, que agrupa os elementos que apresentarem menor distância entre si. Para se aplicar a técnica em questão, uma matriz de distâncias é a entrada utilizada. Esse processo de agrupamento gera ao final uma árvore invertida conhecida como dendrograma. O coeficiente de correlação cofenética (ccc), obtido após a construção do dendrograma, é utilizado para avaliar a consistência dos agrupamentos gerados e indica o quão fiel o dendrograma está em relação aos dados originais. Dessa forma, um dendrograma apresenta agrupamentos mais consistentes quando o ccc for o mais próximo de um (1) . O problema de clusterização em todas as suas vertentes, inclusive a clusterização hierárquica (objeto de estudo nesse trabalho), pertence a classe de problemas NP-Completo. Assim sendo, é comum o uso de heurísticas para obter soluções de modo eficiente para esse problema. Com o objetivo de gerar dendrogramas que resultem em melhores ccc, é proposto no presente trabalho um novo algoritmo que utiliza os conceitos da metaheurística GRASP. Também é objetivo deste trabalho implementar tal solução em computação paralela em um cluster computacional, permitindo assim trabalhar com matrizes de dimensões maiores. Testes foram realizados para comprovar o desempenho do algoritmo proposto, comparando os resultados obtidos com os gerados pelo software R.The problem of clustering (grouping) consists of, from a database, group the elements so that more queries are in the same cluster (group) and less similar elements are different clusters. There are several ways to accomplish these groupings. One of the most popular is the hierarchical, where a hierarchical relationships between the elements is created. There are several methods of analyzing the similarity between elements in the clustering problem. The most common among them is the single linkage method, which brings together the elements that are experiencing less apart. To apply the technique in question, distance matrix is the input used. This grouping process generates the end an inverted tree known as dendrogram. The cophenetic correlation coefficient (ccc), obtained after the construction of the dendrogram is a measure used to evaluate the consistency of the clusters generated and indicates how faithful he is in relation to the original data. Thus, a dendrogram gives more consistent clusters when the ccc is closer to one (1). The clustering problem in all its aspects, including hierarchical clustering (object of study in this work), belongs to the class of NP-complete problems. Therefore, it is common to use heuristics for efficient solutions to this problem. In order to generate dendrograms that result in better ccc, it is proposed in this paper a new algorithm that uses the concepts of GRASP metaheuristic. It is also objective of this work to implement such a solution in parallel computing in a computer cluster, thus working with arrays larger. Tests were conducted to confirm the performance of the proposed algorithm, comparing the results with those generated by the software R.application/pdfUniversidade Federal do TocantinsPalmasPrograma de Pós-Graduação em Modelagem Computacional de Sistemas - PPGMCSBRCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOGRASPClusterização HierárquicaCoeficiente de Correlação CofenéticaHierarchical clusteringCophenetic Correlation CoefficientMelhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASPinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFTinstname:Universidade Federal do Tocantins (UFT)instacron:UFTORIGINALNapoleão Póvoa Ribeiro Filho - Dissertação.pdfNapoleão Póvoa Ribeiro Filho - Dissertação.pdfapplication/pdf1125573http://repositorio.uft.edu.br/bitstream/11612/974/1/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf91b17d072179d9861e4c4d13aa790de6MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-8508http://repositorio.uft.edu.br/bitstream/11612/974/2/license.txt0a9e77404315487775b2e0c2b887ae47MD52TEXTNapoleão Póvoa Ribeiro Filho - Dissertação.pdf.txtNapoleão Póvoa Ribeiro Filho - Dissertação.pdf.txtExtracted texttext/plain106497http://repositorio.uft.edu.br/bitstream/11612/974/3/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf.txt14294f68d599cbbdcf4e609d20e03061MD53THUMBNAILNapoleão Póvoa Ribeiro Filho - Dissertação.pdf.jpgNapoleão Póvoa Ribeiro Filho - Dissertação.pdf.jpgGenerated Thumbnailimage/jpeg1211http://repositorio.uft.edu.br/bitstream/11612/974/4/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf.jpgee04b2280698f43f43fd729e9edf2940MD5411612/9742019-05-25 03:21:18.268oai:repositorio.uft.edu.br:11612/974TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRvIHRyYWJhbGhvIHN1cHJhY2l0YWRvLCBkZSBhY29yZG8gY29tIGEgTGVpIG7CsCA5LjYxMC85OCwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBUb2NhbnRpbnMsIGEgZGlzcG9uaWJpbGl6YXIgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBjb25mb3JtZSBwZXJtaXNzw7VlcyBhc3NpbmFsYWRhcyBhY2ltYSwgbyBkb2N1bWVudG8gZW0gbWVpbyBlbGV0csO0bmljbywgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZSBuYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGUgVGVzZXMgZSBEaXNzZXJ0YcOnw7VlcywgZW0gZm9ybWF0byBkaWdpdGFsIFBERiwgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gb3UgZG93bmxvYWQsIGEgcGFydGlyIGRlc3RhIGRhdGEsIGVtIGNvbmZvcm1pZGFkZSBjb20gYSBSZXNvbHXDp8OjbyBDT05TRVBFIG7CuiAwNS8yMDExLg==Repositório InstitucionalPUBhttp://repositorio.uft.edu.br/oai/requestbiblioarraias@uft.edu.br || bibliogpi@uft.edu.br || bibliomira@uft.edu.br || bibliopalmas@uft.edu.br || biblioporto@uft.edu.br || biblioarag@uft.edu.br || dirbib@ufnt.edu.br || bibliocca@uft.edu.br || bibliotoc@uft.edu.bropendoar:2019-05-25T06:21:18Repositório Institucional da UFT - Universidade Federal do Tocantins (UFT)false
dc.title.pt_BR.fl_str_mv Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
title Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
spellingShingle Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
Ribeiro Filho, Napoleão Póvoa
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
GRASP
Clusterização Hierárquica
Coeficiente de Correlação Cofenética
Hierarchical clustering
Cophenetic Correlation Coefficient
title_short Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
title_full Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
title_fullStr Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
title_full_unstemmed Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
title_sort Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP
author Ribeiro Filho, Napoleão Póvoa
author_facet Ribeiro Filho, Napoleão Póvoa
author_role author
dc.contributor.author.fl_str_mv Ribeiro Filho, Napoleão Póvoa
dc.contributor.advisor1.fl_str_mv Rocha, Marcelo Lisboa
contributor_str_mv Rocha, Marcelo Lisboa
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
GRASP
Clusterização Hierárquica
Coeficiente de Correlação Cofenética
Hierarchical clustering
Cophenetic Correlation Coefficient
dc.subject.por.fl_str_mv GRASP
Clusterização Hierárquica
Coeficiente de Correlação Cofenética
Hierarchical clustering
Cophenetic Correlation Coefficient
description O problema de clusterização (agrupamento) consiste em, a partir de uma base de dados, agrupar os elementos de modo que os mais similares fiquem no mesmo cluster (grupo), e os elementos menos similares fiquem em clusters distintos. Há várias maneiras de se realizar esses agrupamentos. Uma das mais populares é a hierárquica, onde é criada uma hierarquia de relacionamentos entre os elementos. Há vários métodos de se analisar a similaridade entre elementos no problema de clusterização. O mais utilizado entre eles é o método single linkage, que agrupa os elementos que apresentarem menor distância entre si. Para se aplicar a técnica em questão, uma matriz de distâncias é a entrada utilizada. Esse processo de agrupamento gera ao final uma árvore invertida conhecida como dendrograma. O coeficiente de correlação cofenética (ccc), obtido após a construção do dendrograma, é utilizado para avaliar a consistência dos agrupamentos gerados e indica o quão fiel o dendrograma está em relação aos dados originais. Dessa forma, um dendrograma apresenta agrupamentos mais consistentes quando o ccc for o mais próximo de um (1) . O problema de clusterização em todas as suas vertentes, inclusive a clusterização hierárquica (objeto de estudo nesse trabalho), pertence a classe de problemas NP-Completo. Assim sendo, é comum o uso de heurísticas para obter soluções de modo eficiente para esse problema. Com o objetivo de gerar dendrogramas que resultem em melhores ccc, é proposto no presente trabalho um novo algoritmo que utiliza os conceitos da metaheurística GRASP. Também é objetivo deste trabalho implementar tal solução em computação paralela em um cluster computacional, permitindo assim trabalhar com matrizes de dimensões maiores. Testes foram realizados para comprovar o desempenho do algoritmo proposto, comparando os resultados obtidos com os gerados pelo software R.
publishDate 2016
dc.date.issued.fl_str_mv 2016-03-30
dc.date.accessioned.fl_str_mv 2018-08-03T18:48:07Z
dc.date.available.fl_str_mv 2018-08-03T18:48:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIBEIRO FILHO, Napoleão Póvoa. Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP.2016. 58f. Dissertação (Mestrado em Modelagem Computacional e Sistemas) – Universidade Federal do Tocantins, Programa de Pós-graduação em Modelagem Computacional e Sistemas, Palmas, 2016.
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11612/974
identifier_str_mv RIBEIRO FILHO, Napoleão Póvoa. Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP.2016. 58f. Dissertação (Mestrado em Modelagem Computacional e Sistemas) – Universidade Federal do Tocantins, Programa de Pós-graduação em Modelagem Computacional e Sistemas, Palmas, 2016.
url http://hdl.handle.net/11612/974
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Tocantins
Palmas
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional de Sistemas - PPGMCS
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal do Tocantins
Palmas
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFT
instname:Universidade Federal do Tocantins (UFT)
instacron:UFT
instname_str Universidade Federal do Tocantins (UFT)
instacron_str UFT
institution UFT
reponame_str Repositório Institucional da UFT
collection Repositório Institucional da UFT
bitstream.url.fl_str_mv http://repositorio.uft.edu.br/bitstream/11612/974/1/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf
http://repositorio.uft.edu.br/bitstream/11612/974/2/license.txt
http://repositorio.uft.edu.br/bitstream/11612/974/3/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf.txt
http://repositorio.uft.edu.br/bitstream/11612/974/4/Napole%c3%a3o%20P%c3%b3voa%20Ribeiro%20Filho%20-%20Disserta%c3%a7%c3%a3o.pdf.jpg
bitstream.checksum.fl_str_mv 91b17d072179d9861e4c4d13aa790de6
0a9e77404315487775b2e0c2b887ae47
14294f68d599cbbdcf4e609d20e03061
ee04b2280698f43f43fd729e9edf2940
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFT - Universidade Federal do Tocantins (UFT)
repository.mail.fl_str_mv biblioarraias@uft.edu.br || bibliogpi@uft.edu.br || bibliomira@uft.edu.br || bibliopalmas@uft.edu.br || biblioporto@uft.edu.br || biblioarag@uft.edu.br || dirbib@ufnt.edu.br || bibliocca@uft.edu.br || bibliotoc@uft.edu.br
_version_ 1802111583601557504