Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/jspui/handle/123456789/15263 |
Resumo: | In this work we present a new clustering method that groups up points of a data set in classes. The method is based in a algorithm to link auxiliary clusters that are obtained using traditional vector quantization techniques. It is described some approaches during the development of the work that are based in measures of distances or dissimilarities (divergence) between the auxiliary clusters. This new method uses only two a priori information, the number of auxiliary clusters Na and a threshold distance dt that will be used to decide about the linkage or not of the auxiliary clusters. The number os classes could be automatically found by the method, that do it based in the chosen threshold distance dt, or it is given as additional information to help in the choice of the correct threshold. Some analysis are made and the results are compared with traditional clustering methods. In this work different dissimilarities metrics are analyzed and a new one is proposed based on the concept of negentropy. Besides grouping points of a set in classes, it is proposed a method to statistical modeling the classes aiming to obtain a expression to the probability of a point to belong to one of the classes. Experiments with several values of Na e dt are made in tests sets and the results are analyzed aiming to study the robustness of the method and to consider heuristics to the choice of the correct threshold. During this work it is explored the aspects of information theory applied to the calculation of the divergences. It will be explored specifically the different measures of information and divergence using the Rényi entropy. The results using the different metrics are compared and commented. The work also has appendix where are exposed real applications using the proposed method |
id |
UFRN_1e59394824a356d6458db55e43b1d09c |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/15263 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Martins, Allan de Medeiroshttp://lattes.cnpq.br/4402694969508077http://lattes.cnpq.br/1987295209521433Melo, Jorge Dantas dehttp://lattes.cnpq.br/7325007451912598Aguiar Neto, Benedito Guimarãeshttp://lattes.cnpq.br/3405447548131544Tanscheit, Ricardohttp://lattes.cnpq.br/8206214061481076Mariz, Ananias Monteirohttp://lattes.cnpq.br/7218040405934056Costa, José Alfredo Ferreirahttp://lattes.cnpq.br/9745845064013172Dória Neto, Adrião Duarte2014-12-17T14:55:24Z2007-11-282014-12-17T14:55:24Z2005-03-08MARTINS, Allan de Medeiros. Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas. 2005. 214 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.https://repositorio.ufrn.br/jspui/handle/123456789/15263In this work we present a new clustering method that groups up points of a data set in classes. The method is based in a algorithm to link auxiliary clusters that are obtained using traditional vector quantization techniques. It is described some approaches during the development of the work that are based in measures of distances or dissimilarities (divergence) between the auxiliary clusters. This new method uses only two a priori information, the number of auxiliary clusters Na and a threshold distance dt that will be used to decide about the linkage or not of the auxiliary clusters. The number os classes could be automatically found by the method, that do it based in the chosen threshold distance dt, or it is given as additional information to help in the choice of the correct threshold. Some analysis are made and the results are compared with traditional clustering methods. In this work different dissimilarities metrics are analyzed and a new one is proposed based on the concept of negentropy. Besides grouping points of a set in classes, it is proposed a method to statistical modeling the classes aiming to obtain a expression to the probability of a point to belong to one of the classes. Experiments with several values of Na e dt are made in tests sets and the results are analyzed aiming to study the robustness of the method and to consider heuristics to the choice of the correct threshold. During this work it is explored the aspects of information theory applied to the calculation of the divergences. It will be explored specifically the different measures of information and divergence using the Rényi entropy. The results using the different metrics are compared and commented. The work also has appendix where are exposed real applications using the proposed methodNeste trabalho apresentamos um novo método de clustering que agrupa pontos de um conjunto de dados em classes. O método baseia-se em um algoritmo para ligação de clusters auxiliares que são obtidos usando-se técnicas de quantização vetorial tradicionais. São descritas algumas abordagens durante o desenvolvimento do trabalho que baseiam-se em medidas de distância ou dissimilaridade (divergência) entre os clusters auxiliares. Este novo método utiliza apenas duas informações a priori, a saber: o número de centros auxiliares Na e uma distância de limiar dt que será utilizada para decidir sobre a ligação ou não dos clusters auxilares. O número de clusters pode ser automaticamente encontrado pelo método, que o faz com base na distância limiar dt escolhida. Analogamente, o número de classes, pode ser fornecido como informação adicional para auxiliar na escolha do limiar correto. Algumas análises são feitas e os resultados são comparados com outros métodos tradicionais de clustering. Neste trabalho são analisadas diferentes métricas de dissimilaridade e uma nova métrica baseada no conceito de negentropia é proposta. Além de agrupar pontos de um conjunto de classes, é proposto um método para o modelamento estatístico das classes de modo a se obter uma expressão para a probabilidade de um ponto pertencer a uma das classes. Experimentos com diversos valores de Na e dt são realizados em conjuntos de teste e os resultados são analisados de maneira a se estudar a robustez do método e propor heurísticas para a escolha do limiar correto. No trabalho são explorados os aspectos de teoria da informação aplicados ao cálculo das divergências. São exploradas em particular as diferenças medidas de informação e divergência utilizando a entropia de Rényi. Os resultados utilizando as diferentes métricas são comparados e comentados. O trabalho ainda conta com apêndices onde são expostas aplicações reais utilizando o método propostoapplication/pdfporUniversidade Federal do Rio Grande do NortePrograma de Pós-Graduação em Engenharia ElétricaUFRNBRAutomação e Sistemas; Engenharia de Computação; TelecomunicaçõesClusteringTeoria da InformaçãoMétricas não-EuclidianasClusteringInformation theoryCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAContribuições aos Processos de Clustering com Base em Métricas não-Euclidianasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALAllanMM_TESE.pdfAllanMM_TESE.pdfapplication/pdf14295375https://repositorio.ufrn.br/bitstream/123456789/15263/1/AllanMM_TESE.pdff6face273fbc00472c277b426fa637aeMD51THUMBNAILAllanMM_TESE.pdf.jpgAllanMM_TESE.pdf.jpgIM Thumbnailimage/jpeg2463https://repositorio.ufrn.br/bitstream/123456789/15263/6/AllanMM_TESE.pdf.jpgec9cc9bdff4a4429ce2aae79d1cc8607MD56TEXTAllanMM_TESE.pdf.txtAllanMM_TESE.pdf.txtExtracted texttext/plain335495https://repositorio.ufrn.br/bitstream/123456789/15263/5/AllanMM_TESE.pdf.txtb56593ce58bbc6db93fba4dd129fc3eeMD55123456789/152632017-11-02 07:08:11.516oai:https://repositorio.ufrn.br:123456789/15263Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2017-11-02T10:08:11Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.por.fl_str_mv |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
title |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
spellingShingle |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas Martins, Allan de Medeiros Clustering Teoria da Informação Métricas não-Euclidianas Clustering Information theory CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
title_short |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
title_full |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
title_fullStr |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
title_full_unstemmed |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
title_sort |
Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas |
author |
Martins, Allan de Medeiros |
author_facet |
Martins, Allan de Medeiros |
author_role |
author |
dc.contributor.authorID.por.fl_str_mv |
|
dc.contributor.authorLattes.por.fl_str_mv |
http://lattes.cnpq.br/4402694969508077 |
dc.contributor.advisorID.por.fl_str_mv |
|
dc.contributor.advisorLattes.por.fl_str_mv |
http://lattes.cnpq.br/1987295209521433 |
dc.contributor.advisor-co1ID.por.fl_str_mv |
|
dc.contributor.referees1.pt_BR.fl_str_mv |
Aguiar Neto, Benedito Guimarães |
dc.contributor.referees1ID.por.fl_str_mv |
|
dc.contributor.referees1Lattes.por.fl_str_mv |
http://lattes.cnpq.br/3405447548131544 |
dc.contributor.referees2.pt_BR.fl_str_mv |
Tanscheit, Ricardo |
dc.contributor.referees2ID.por.fl_str_mv |
|
dc.contributor.referees2Lattes.por.fl_str_mv |
http://lattes.cnpq.br/8206214061481076 |
dc.contributor.referees3.pt_BR.fl_str_mv |
Mariz, Ananias Monteiro |
dc.contributor.referees3ID.por.fl_str_mv |
|
dc.contributor.referees3Lattes.por.fl_str_mv |
http://lattes.cnpq.br/7218040405934056 |
dc.contributor.referees4.pt_BR.fl_str_mv |
Costa, José Alfredo Ferreira |
dc.contributor.referees4ID.por.fl_str_mv |
|
dc.contributor.referees4Lattes.por.fl_str_mv |
http://lattes.cnpq.br/9745845064013172 |
dc.contributor.author.fl_str_mv |
Martins, Allan de Medeiros |
dc.contributor.advisor-co1.fl_str_mv |
Melo, Jorge Dantas de |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/7325007451912598 |
dc.contributor.advisor1.fl_str_mv |
Dória Neto, Adrião Duarte |
contributor_str_mv |
Melo, Jorge Dantas de Dória Neto, Adrião Duarte |
dc.subject.por.fl_str_mv |
Clustering Teoria da Informação Métricas não-Euclidianas |
topic |
Clustering Teoria da Informação Métricas não-Euclidianas Clustering Information theory CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
dc.subject.eng.fl_str_mv |
Clustering Information theory |
dc.subject.cnpq.fl_str_mv |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
description |
In this work we present a new clustering method that groups up points of a data set in classes. The method is based in a algorithm to link auxiliary clusters that are obtained using traditional vector quantization techniques. It is described some approaches during the development of the work that are based in measures of distances or dissimilarities (divergence) between the auxiliary clusters. This new method uses only two a priori information, the number of auxiliary clusters Na and a threshold distance dt that will be used to decide about the linkage or not of the auxiliary clusters. The number os classes could be automatically found by the method, that do it based in the chosen threshold distance dt, or it is given as additional information to help in the choice of the correct threshold. Some analysis are made and the results are compared with traditional clustering methods. In this work different dissimilarities metrics are analyzed and a new one is proposed based on the concept of negentropy. Besides grouping points of a set in classes, it is proposed a method to statistical modeling the classes aiming to obtain a expression to the probability of a point to belong to one of the classes. Experiments with several values of Na e dt are made in tests sets and the results are analyzed aiming to study the robustness of the method and to consider heuristics to the choice of the correct threshold. During this work it is explored the aspects of information theory applied to the calculation of the divergences. It will be explored specifically the different measures of information and divergence using the Rényi entropy. The results using the different metrics are compared and commented. The work also has appendix where are exposed real applications using the proposed method |
publishDate |
2005 |
dc.date.issued.fl_str_mv |
2005-03-08 |
dc.date.available.fl_str_mv |
2007-11-28 2014-12-17T14:55:24Z |
dc.date.accessioned.fl_str_mv |
2014-12-17T14:55:24Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MARTINS, Allan de Medeiros. Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas. 2005. 214 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/jspui/handle/123456789/15263 |
identifier_str_mv |
MARTINS, Allan de Medeiros. Contribuições aos Processos de Clustering com Base em Métricas não-Euclidianas. 2005. 214 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005. |
url |
https://repositorio.ufrn.br/jspui/handle/123456789/15263 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Engenharia Elétrica |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Automação e Sistemas; Engenharia de Computação; Telecomunicações |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/15263/1/AllanMM_TESE.pdf https://repositorio.ufrn.br/bitstream/123456789/15263/6/AllanMM_TESE.pdf.jpg https://repositorio.ufrn.br/bitstream/123456789/15263/5/AllanMM_TESE.pdf.txt |
bitstream.checksum.fl_str_mv |
f6face273fbc00472c277b426fa637ae ec9cc9bdff4a4429ce2aae79d1cc8607 b56593ce58bbc6db93fba4dd129fc3ee |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117857312505856 |