Comparação de critérios para determinação do número de clusters
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | https://bdm.unb.br/handle/10483/27874 |
Resumo: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
id |
UNB-2_80c6eacaa90fcf79de7b206a09607620 |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/27874 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Mariano Junior, José CezárioCançado, André Luiz FernandesMARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018.https://bdm.unb.br/handle/10483/27874Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018.Este trabalho apresenta um estudo de critérios de inferência do número correto de grupos em conjuntos de dados, considerando diferentes métodos de agrupamento aplicados a diversas configurações de conjuntos de dados. Foram analisados 22 conjuntos de dados com dimensões e número de grupos variáveis, com grupos gaussianos, elipsoidais e em espiral. Os agrupamentos foram realizados usando o pacote NbClust (linguagem R), utilizando os métodos k-médias, Ward, ligação completa e centroide, todos com distância euclidiana, e usando os critérios CH, Silhueta, DB, Hartigan, Tracew, Trcovw e Gap para inferir o número correto de grupos. Os critérios CH, Silhueta e DB apresentaram bons resultados para conjuntos de dados com grupos gaussianos. Os critérios Hartigan, Tracew e Trcovw apresentaram bons resultados apenas para conjuntos com poucos grupos gaussianos de baixa dimensão. O critério Gap não apresentou resultados satisfatórios em nenhuma das análises realizadas. De forma geral, os resultados não foram satisfatórios para conjuntos de dados com grupos de geometria mais complexa ou de dimensões mais elevadas, o que pode ser consequência da simplicidade dos métodos de agrupamento usados.Submitted by Anita Souza (anita.souza@bce.unb.br) on 2021-03-24T14:48:04Z No. of bitstreams: 1 2018_JoseCezarioMarianoJunior_tcc.pdf: 705609 bytes, checksum: bff331efd8314237e260077a509ee7d2 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2021-07-01T14:03:48Z (GMT) No. of bitstreams: 1 2018_JoseCezarioMarianoJunior_tcc.pdf: 705609 bytes, checksum: bff331efd8314237e260077a509ee7d2 (MD5)Made available in DSpace on 2021-07-01T14:03:48Z (GMT). No. of bitstreams: 1 2018_JoseCezarioMarianoJunior_tcc.pdf: 705609 bytes, checksum: bff331efd8314237e260077a509ee7d2 (MD5)This study presents an evaluation of different cluster validity indices, considering different clustering methods applied to data sets with different configurations. The study was conducted on 22 data sets of different dimensions, number of clusters and type of clusters (Gaussian, ellipsoidal and spiral clusters). The clustering process was performed using the NbClust R-package using k-means and hierarchical clustering (Ward, complete linkage and centroid) and Euclidean distance, comparing the results from CH, Silhouette, DB, Hartigan, Tracew, Trcovw and Gap validity indices. CH, Silhouette and DB indices were able to find the correct number of clusters in data sets with Gaussian clusters. Hartigan, Tracew and Trcovw were able to correctly find the number of clusters only for low-dimension Gaussian data sets. The Gap index could not find the correct number of clusters in any of the data sets analysed. In general, results were not satisfactory as dimension and geometry of the data sets got higher and more complex, which may be due to the simplicity of the clustering methods applied in the study.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessDados estatísticosClusterAnálise de agrupamento (Estatística)Comparação de critérios para determinação do número de clustersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-07-01T14:03:48Z2021-07-01T14:03:48Z2018-12-07porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/27874/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2018_JoseCezarioMarianoJunior_tcc.pdf2018_JoseCezarioMarianoJunior_tcc.pdfapplication/pdf705609http://bdm.unb.br/xmlui/bitstream/10483/27874/1/2018_JoseCezarioMarianoJunior_tcc.pdfbff331efd8314237e260077a509ee7d2MD5110483/278742021-07-01 11:03:49.013oai:bdm.unb.br:10483/27874w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-07-01T14:03:49Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.pt_BR.fl_str_mv |
Comparação de critérios para determinação do número de clusters |
title |
Comparação de critérios para determinação do número de clusters |
spellingShingle |
Comparação de critérios para determinação do número de clusters Mariano Junior, José Cezário Dados estatísticos Cluster Análise de agrupamento (Estatística) |
title_short |
Comparação de critérios para determinação do número de clusters |
title_full |
Comparação de critérios para determinação do número de clusters |
title_fullStr |
Comparação de critérios para determinação do número de clusters |
title_full_unstemmed |
Comparação de critérios para determinação do número de clusters |
title_sort |
Comparação de critérios para determinação do número de clusters |
author |
Mariano Junior, José Cezário |
author_facet |
Mariano Junior, José Cezário |
author_role |
author |
dc.contributor.author.fl_str_mv |
Mariano Junior, José Cezário |
dc.contributor.advisor1.fl_str_mv |
Cançado, André Luiz Fernandes |
contributor_str_mv |
Cançado, André Luiz Fernandes |
dc.subject.keyword.pt_BR.fl_str_mv |
Dados estatísticos Cluster Análise de agrupamento (Estatística) |
topic |
Dados estatísticos Cluster Análise de agrupamento (Estatística) |
description |
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
publishDate |
2018 |
dc.date.submitted.none.fl_str_mv |
2018-12-07 |
dc.date.accessioned.fl_str_mv |
2021-07-01T14:03:48Z |
dc.date.available.fl_str_mv |
2021-07-01T14:03:48Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018. |
dc.identifier.uri.fl_str_mv |
https://bdm.unb.br/handle/10483/27874 |
identifier_str_mv |
MARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018. |
url |
https://bdm.unb.br/handle/10483/27874 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/27874/2/license.txt http://bdm.unb.br/xmlui/bitstream/10483/27874/1/2018_JoseCezarioMarianoJunior_tcc.pdf |
bitstream.checksum.fl_str_mv |
21554873e56ad8ddc69c092699b98f95 bff331efd8314237e260077a509ee7d2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1801493146072252416 |