Seleção automática de índices internos de validação de agrupamento

Detalhes bibliográficos
Autor(a) principal: Tomasini, Caroline
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da FURG (RI FURG)
Texto Completo: http://repositorio.furg.br/handle/1/9318
Resumo: A validação dos resultados de agrupamento é uma questão importante na área de aprendizado de máquina e é essencial para o sucesso das aplicações relacionadas a agrupamento de dados. No entanto, escolher o índice de validação adequado para avaliar os resultados de um algoritmo de agrupamento específico continua sendo um desafio. A qualidade das partições geradas por diferentes algoritmos de agrupamento pode ser avaliada utilizando diferentes índices com base em critérios externos ou internos. Um critério externo requer que o particionamento ideal seja conhecido a priori para a comparação com os resultados de agrupamento. Já o critério interno avalia os resultados de agrupamento considerando apenas as propriedades do conjunto de dados. Neste trabalho, é proposta uma metodologia para a escolha do índice interno de validação de agrupamento mais adequado, relacionando critérios externos e internos através de um modelo de regressão linear aplicado sobre os resultados de algoritmos de agrupamento particionais e baseados em densidade. Cada algoritmo foi aplicado sobre conjuntos de dados sintéticos que foram gerados para este fim, usando diferentes configurações. Os resultados de agrupamento foram avaliados por diferentes índices com base em critérios internos e externos que geraram a entrada para os modelos de regressão. A análise destes modelos permitiu a inferência do índice interno mais adequado para cada método de algoritmo de agrupamento. Por fim, foi realizada uma validação dos modelos encontrados utilizando conjuntos de dados reais e sintéticos utilizados em outros trabalhos da literatura.
id FURG_251ee1be3948b291c3a66fe22170dd8d
oai_identifier_str oai:repositorio.furg.br:1/9318
network_acronym_str FURG
network_name_str Repositório Institucional da FURG (RI FURG)
repository_id_str
spelling Tomasini, CarolineMachado, Karina dos SantosBorges, Eduardo Nunes2021-03-04T17:54:21Z2021-03-04T17:54:21Z2015TOMASINI, Carolini. Seleção automática de índices internos de validação de agrupamento. 2015. 69 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2015.http://repositorio.furg.br/handle/1/9318A validação dos resultados de agrupamento é uma questão importante na área de aprendizado de máquina e é essencial para o sucesso das aplicações relacionadas a agrupamento de dados. No entanto, escolher o índice de validação adequado para avaliar os resultados de um algoritmo de agrupamento específico continua sendo um desafio. A qualidade das partições geradas por diferentes algoritmos de agrupamento pode ser avaliada utilizando diferentes índices com base em critérios externos ou internos. Um critério externo requer que o particionamento ideal seja conhecido a priori para a comparação com os resultados de agrupamento. Já o critério interno avalia os resultados de agrupamento considerando apenas as propriedades do conjunto de dados. Neste trabalho, é proposta uma metodologia para a escolha do índice interno de validação de agrupamento mais adequado, relacionando critérios externos e internos através de um modelo de regressão linear aplicado sobre os resultados de algoritmos de agrupamento particionais e baseados em densidade. Cada algoritmo foi aplicado sobre conjuntos de dados sintéticos que foram gerados para este fim, usando diferentes configurações. Os resultados de agrupamento foram avaliados por diferentes índices com base em critérios internos e externos que geraram a entrada para os modelos de regressão. A análise destes modelos permitiu a inferência do índice interno mais adequado para cada método de algoritmo de agrupamento. Por fim, foi realizada uma validação dos modelos encontrados utilizando conjuntos de dados reais e sintéticos utilizados em outros trabalhos da literatura.Validation of clustering results is an important issue in the context of machine learning research and it is essential for the success of clustering applications. Choosing the appropriate validation index for evaluating the results of a particular clustering algorithm remains a challenge. The quality of partitions generated by different clustering algorithms can be evaluated using different indices based on external or internal criteria. An external criterion requires a partitioning of the data defined a priori for comparison with the clustering results while an internal criterion evaluates clustering results considering only the data properties. In this paper, we have proposed a methodology for selecting the most suitable cluster validation internal index, relating external and internal criteria through a linear regression model applied on the results of partitioning and density-based clustering algorithms. Each algorithm was run over synthetic datasets generated for this purpose, using different configurations. Clustering results were evaluated by diferent indices based on internal and external criteria generating the input for regression models. The analysis of these models allowed the inference of the most suitable internal index for each method of clustering algorithm. Finally was performed a validation of the found models using real datasets.porAvaliação de agrupamentosCritérios de validaçãoRegressão linearCluster evaluationValidation criteriaLinear regressionSeleção automática de índices internos de validação de agrupamentoAutomatic selection of internal indices of cluster validationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FURG (RI FURG)instname:Universidade Federal do Rio Grande (FURG)instacron:FURGORIGINAL33.pdf33.pdfapplication/pdf2332002https://repositorio.furg.br/bitstream/1/9318/1/33.pdf288ccfe132baf5879ae45d3b54c7020cMD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.furg.br/bitstream/1/9318/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52open access1/93182021-03-04 14:54:21.384metadata only accessoai:repositorio.furg.br:1/9318Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.furg.br/oai/request || http://200.19.254.174/oai/requestopendoar:2021-03-04T17:54:21Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)false
dc.title.pt_BR.fl_str_mv Seleção automática de índices internos de validação de agrupamento
dc.title.alternative.pt_BR.fl_str_mv Automatic selection of internal indices of cluster validation
title Seleção automática de índices internos de validação de agrupamento
spellingShingle Seleção automática de índices internos de validação de agrupamento
Tomasini, Caroline
Avaliação de agrupamentos
Critérios de validação
Regressão linear
Cluster evaluation
Validation criteria
Linear regression
title_short Seleção automática de índices internos de validação de agrupamento
title_full Seleção automática de índices internos de validação de agrupamento
title_fullStr Seleção automática de índices internos de validação de agrupamento
title_full_unstemmed Seleção automática de índices internos de validação de agrupamento
title_sort Seleção automática de índices internos de validação de agrupamento
author Tomasini, Caroline
author_facet Tomasini, Caroline
author_role author
dc.contributor.author.fl_str_mv Tomasini, Caroline
dc.contributor.advisor1.fl_str_mv Machado, Karina dos Santos
Borges, Eduardo Nunes
contributor_str_mv Machado, Karina dos Santos
Borges, Eduardo Nunes
dc.subject.por.fl_str_mv Avaliação de agrupamentos
Critérios de validação
Regressão linear
Cluster evaluation
Validation criteria
Linear regression
topic Avaliação de agrupamentos
Critérios de validação
Regressão linear
Cluster evaluation
Validation criteria
Linear regression
description A validação dos resultados de agrupamento é uma questão importante na área de aprendizado de máquina e é essencial para o sucesso das aplicações relacionadas a agrupamento de dados. No entanto, escolher o índice de validação adequado para avaliar os resultados de um algoritmo de agrupamento específico continua sendo um desafio. A qualidade das partições geradas por diferentes algoritmos de agrupamento pode ser avaliada utilizando diferentes índices com base em critérios externos ou internos. Um critério externo requer que o particionamento ideal seja conhecido a priori para a comparação com os resultados de agrupamento. Já o critério interno avalia os resultados de agrupamento considerando apenas as propriedades do conjunto de dados. Neste trabalho, é proposta uma metodologia para a escolha do índice interno de validação de agrupamento mais adequado, relacionando critérios externos e internos através de um modelo de regressão linear aplicado sobre os resultados de algoritmos de agrupamento particionais e baseados em densidade. Cada algoritmo foi aplicado sobre conjuntos de dados sintéticos que foram gerados para este fim, usando diferentes configurações. Os resultados de agrupamento foram avaliados por diferentes índices com base em critérios internos e externos que geraram a entrada para os modelos de regressão. A análise destes modelos permitiu a inferência do índice interno mais adequado para cada método de algoritmo de agrupamento. Por fim, foi realizada uma validação dos modelos encontrados utilizando conjuntos de dados reais e sintéticos utilizados em outros trabalhos da literatura.
publishDate 2015
dc.date.issued.fl_str_mv 2015
dc.date.accessioned.fl_str_mv 2021-03-04T17:54:21Z
dc.date.available.fl_str_mv 2021-03-04T17:54:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv TOMASINI, Carolini. Seleção automática de índices internos de validação de agrupamento. 2015. 69 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2015.
dc.identifier.uri.fl_str_mv http://repositorio.furg.br/handle/1/9318
identifier_str_mv TOMASINI, Carolini. Seleção automática de índices internos de validação de agrupamento. 2015. 69 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2015.
url http://repositorio.furg.br/handle/1/9318
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da FURG (RI FURG)
instname:Universidade Federal do Rio Grande (FURG)
instacron:FURG
instname_str Universidade Federal do Rio Grande (FURG)
instacron_str FURG
institution FURG
reponame_str Repositório Institucional da FURG (RI FURG)
collection Repositório Institucional da FURG (RI FURG)
bitstream.url.fl_str_mv https://repositorio.furg.br/bitstream/1/9318/1/33.pdf
https://repositorio.furg.br/bitstream/1/9318/2/license.txt
bitstream.checksum.fl_str_mv 288ccfe132baf5879ae45d3b54c7020c
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)
repository.mail.fl_str_mv
_version_ 1798313633714798592