Algoritmo genético híbrido aplicado ao problema de agrupamento de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
Texto Completo: | http://repositorio.ufes.br/handle/10/6400 |
Resumo: | Clustering is a task that divides a data set in subgroups aiming that elements associated to one exactly group are more similar between themselves than elements of other groups. Organizing data in groups make it possible to identify similarities and differences between them, to extract useful information and conclusions regarding the data features. Clustering may be considered an optimization problem because it is intended to find the best combination of partitions among all possible combinations. An approach that can be applied to solve the clustering problem is the use of metaheuristics, which are procedures capable of escaping from local optima, once the use of exact methods is computationally infeasible. However, the majority of the metaheurísticas applied to clustering problem is not scalable for real or commercial bases. They are more effective for smaller instances of the problem trated. The computational cost necessary to calculate the solutions becomes greater in larger instances of the problem. For this reason, hybrid procedures that explore the combination of metaheuristics represent a promising approach for solving the clustering problem. This work shows a proposal of a Hybrid Genetic Clustering Algorithm that associates the process of global search to a local search heuristic and also initializes the population by different grouping techniques. Such improvements aim to direct the search for solutions next to the global optimal one. An experimental evaluation with real and synthetic databases is performed aiming to verify if the proposed approach presents an improvement in relation to the other evaluated algorithms. The result of this analysis shows that the proposed algorithm presents a better performance in four among the six evaluated algorithms. In addition, an analysis of the execution time shows that the execution time of our proposal is feasible, even though it is considerably longer than the execution times of the fast convergence algorithms. |
id |
UFES_78787a154f84d825cb6f316beca2cdf8 |
---|---|
oai_identifier_str |
oai:repositorio.ufes.br:10/6400 |
network_acronym_str |
UFES |
network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
repository_id_str |
2108 |
spelling |
Varejão, Flávio MiguelAlckmin, Danuza Prado de FariaMartins, Simone de LimaBoeres, Maria Claudia Silva2016-12-23T14:33:44Z2011-05-312016-12-23T14:33:44Z2009-08-31Clustering is a task that divides a data set in subgroups aiming that elements associated to one exactly group are more similar between themselves than elements of other groups. Organizing data in groups make it possible to identify similarities and differences between them, to extract useful information and conclusions regarding the data features. Clustering may be considered an optimization problem because it is intended to find the best combination of partitions among all possible combinations. An approach that can be applied to solve the clustering problem is the use of metaheuristics, which are procedures capable of escaping from local optima, once the use of exact methods is computationally infeasible. However, the majority of the metaheurísticas applied to clustering problem is not scalable for real or commercial bases. They are more effective for smaller instances of the problem trated. The computational cost necessary to calculate the solutions becomes greater in larger instances of the problem. For this reason, hybrid procedures that explore the combination of metaheuristics represent a promising approach for solving the clustering problem. This work shows a proposal of a Hybrid Genetic Clustering Algorithm that associates the process of global search to a local search heuristic and also initializes the population by different grouping techniques. Such improvements aim to direct the search for solutions next to the global optimal one. An experimental evaluation with real and synthetic databases is performed aiming to verify if the proposed approach presents an improvement in relation to the other evaluated algorithms. The result of this analysis shows that the proposed algorithm presents a better performance in four among the six evaluated algorithms. In addition, an analysis of the execution time shows that the execution time of our proposal is feasible, even though it is considerably longer than the execution times of the fast convergence algorithms.Agrupamento de dados é uma tarefa que divide um conjunto de dados em subconjuntos de forma que elementos associados a um mesmo grupo sejam mais similares entre si do que em relação a elementos de outros grupos. Ao organizar os dados em grupos é possível identificar similaridades e diferenças entre eles, extrair informações relevantes e inferir conclusões úteis a respeito das características dos dados. O problema de agrupamento de dados pode ser considerado como uma tarefa de otimização, uma vez que se pretende encontrar a melhor combinação de partições dentre todas as combinações possíveis. Uma abordagem que pode ser aplicada para resolver o problema de agrupamento é o uso de metaheurísticas, que são procedimentos capazes de escapar de ótimos locais, pois o uso de métodos exatos se torna computacionalmente inviável. Entretanto, a maioria das metaheurísticas aplicadas ao problema de agrupamento não são escalonáveis para bases reais e comerciais, são mais efetivas nos casos em que a instância do problema é menor. O custo computacional necessário para calcular as soluções se torna maior em instâncias maiores do problema. Por esse motivo, procedimentos híbridos que exploram a combinação de metaheurísticas representam uma abordagem promissora para a resolução do problema de agrupamento. Este trabalho apresenta uma proposta de Algoritmo Genético Híbrido de Agrupamento que associa ao processo de busca global uma heurística de busca local e cuja população inicial é gerada por técnicas de agrupamento. Tais melhorias têm como objetivo direcionar a busca para soluções mais próximas do ótimo global. É realizada uma avaliação experimental em bases de dados reais e sintéticas com o objetivo de verificar se a abordagem proposta apresenta uma melhoria em relação aos algoritmos avaliados. O resultado dessa análise mostra que o algoritmo proposto apresenta um desempenho melhor do que quatro entre os seis algoritmos avaliados. Para complementar a análise é realizada uma avaliação do tempo de execução, cujo objetivo é quantificar a diferença entre a abordagem proposta e os demais algoritmos avaliados. O resultado mostra que o tempo de execução da abordagem proposta é viável, porém é consideravelmente maior do que os tempos de execução dos algoritmos considerados de rápida convergência.TextALCKMIN, Danuza Prado de Faria. Algoritmo genético híbrido aplicado ao problema de agrupamento de dados. 2009. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2009.http://repositorio.ufes.br/handle/10/6400porUniversidade Federal do Espírito SantoMestrado em InformáticaPrograma de Pós-Graduação em InformáticaUFESBRCentro TecnológicoProgramação heurísticaAlgoritmos genéticosAnálise por agrupamentoOtimização combinatóriaCiência da Computação004Algoritmo genético híbrido aplicado ao problema de agrupamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALDissertacao de Danuza Prada de Faria Alckmin.pdfapplication/pdf676333http://repositorio.ufes.br/bitstreams/99c8edc1-436b-4fcf-8d2d-a609e78aeb2c/download0f5968628437ef878dc7f703ce48b8bfMD5110/64002024-06-28 16:11:24.899oai:repositorio.ufes.br:10/6400http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-06-28T16:11:24Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
dc.title.none.fl_str_mv |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
title |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
spellingShingle |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados Alckmin, Danuza Prado de Faria Ciência da Computação Programação heurística Algoritmos genéticos Análise por agrupamento Otimização combinatória 004 |
title_short |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
title_full |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
title_fullStr |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
title_full_unstemmed |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
title_sort |
Algoritmo genético híbrido aplicado ao problema de agrupamento de dados |
author |
Alckmin, Danuza Prado de Faria |
author_facet |
Alckmin, Danuza Prado de Faria |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Varejão, Flávio Miguel |
dc.contributor.author.fl_str_mv |
Alckmin, Danuza Prado de Faria |
dc.contributor.referee1.fl_str_mv |
Martins, Simone de Lima |
dc.contributor.referee2.fl_str_mv |
Boeres, Maria Claudia Silva |
contributor_str_mv |
Varejão, Flávio Miguel Martins, Simone de Lima Boeres, Maria Claudia Silva |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Programação heurística Algoritmos genéticos Análise por agrupamento Otimização combinatória 004 |
dc.subject.br-rjbn.none.fl_str_mv |
Programação heurística Algoritmos genéticos Análise por agrupamento Otimização combinatória |
dc.subject.udc.none.fl_str_mv |
004 |
description |
Clustering is a task that divides a data set in subgroups aiming that elements associated to one exactly group are more similar between themselves than elements of other groups. Organizing data in groups make it possible to identify similarities and differences between them, to extract useful information and conclusions regarding the data features. Clustering may be considered an optimization problem because it is intended to find the best combination of partitions among all possible combinations. An approach that can be applied to solve the clustering problem is the use of metaheuristics, which are procedures capable of escaping from local optima, once the use of exact methods is computationally infeasible. However, the majority of the metaheurísticas applied to clustering problem is not scalable for real or commercial bases. They are more effective for smaller instances of the problem trated. The computational cost necessary to calculate the solutions becomes greater in larger instances of the problem. For this reason, hybrid procedures that explore the combination of metaheuristics represent a promising approach for solving the clustering problem. This work shows a proposal of a Hybrid Genetic Clustering Algorithm that associates the process of global search to a local search heuristic and also initializes the population by different grouping techniques. Such improvements aim to direct the search for solutions next to the global optimal one. An experimental evaluation with real and synthetic databases is performed aiming to verify if the proposed approach presents an improvement in relation to the other evaluated algorithms. The result of this analysis shows that the proposed algorithm presents a better performance in four among the six evaluated algorithms. In addition, an analysis of the execution time shows that the execution time of our proposal is feasible, even though it is considerably longer than the execution times of the fast convergence algorithms. |
publishDate |
2009 |
dc.date.issued.fl_str_mv |
2009-08-31 |
dc.date.available.fl_str_mv |
2011-05-31 2016-12-23T14:33:44Z |
dc.date.accessioned.fl_str_mv |
2016-12-23T14:33:44Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ALCKMIN, Danuza Prado de Faria. Algoritmo genético híbrido aplicado ao problema de agrupamento de dados. 2009. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2009. |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufes.br/handle/10/6400 |
identifier_str_mv |
ALCKMIN, Danuza Prado de Faria. Algoritmo genético híbrido aplicado ao problema de agrupamento de dados. 2009. 96 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2009. |
url |
http://repositorio.ufes.br/handle/10/6400 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
Text |
dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Informática |
dc.publisher.initials.fl_str_mv |
UFES |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Centro Tecnológico |
publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
instname_str |
Universidade Federal do Espírito Santo (UFES) |
instacron_str |
UFES |
institution |
UFES |
reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
bitstream.url.fl_str_mv |
http://repositorio.ufes.br/bitstreams/99c8edc1-436b-4fcf-8d2d-a609e78aeb2c/download |
bitstream.checksum.fl_str_mv |
0f5968628437ef878dc7f703ce48b8bf |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
repository.mail.fl_str_mv |
|
_version_ |
1804309211301019648 |