Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade

Detalhes bibliográficos
Autor(a) principal: Eustáquio, Fernanda Silva
Data de Publicação: 2017
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFBA
Texto Completo: http://repositorio.ufba.br/ri/handle/ri/24355
Resumo: Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.
id UFBA-2_c84f53a7ed43ddf19b33f198394d7247
oai_identifier_str oai:repositorio.ufba.br:ri/24355
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str 1932
spelling Eustáquio, Fernanda SilvaRios, Tatiane NogueiraCamargo, Heloisa de ArrudaRios, Tatiane NogueiraRios, Ricardo Araújo2017-10-10T19:51:56Z2017-10-102017-09-01http://repositorio.ufba.br/ri/handle/ri/24355Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.Clustering objects in clusters is one of the unsupervised tasks of machine learning. In this task, the objects are conventionally clustered into a number c of clusters previously informed, where an object belongs to only one of the clusters. However, if the learning problem is embedded in a context where it is desired that an object can belong to more than one cluster at a time, then Fuzzy Set Theory can be used to make flexible clustering. This flexibility in clustering objects will be given by a membership degree that each object will have in each clusters. This number of clusters must be informed as a parameter of the Fuzzy C-Means (FCM) algorithm used in this work to clustering high dimensional textual sets. However, if this value is not known and we want to know what the optimum number of clusters that fit the clustered dataset, the algorithm should be executed for each number of clusters defined in a range. Considering that different partitions will be generated for each of the values of c used, how to choose the best partition? That is, how to choose the generated partition that found the best structure contained in a dataset? The validity clustering is performed to verify that the partition generated by an algorithm is well structured and how many clusters this partition has. For two-dimensional data sets, this validation can be performed by visualizing the data. In case of larger data sets, this validation will be done through statistical indexes, which quantify the quality of the clustering obtained, identifying the most appropriate structure according to the data and the problem. These statistical indexes are called fuzzy clustering validity indexes. In this work, the validity indexes will be evaluated by studying how these indexes validated the clusters generated by FCM, that is, from the number of clusters indicated by each index, these will have their performances evaluated through the average calculation for when the optimal number of clusters chosen was equal to the correct, minimum or maximum amount (range of c given to FCM) of clusters. These average values allowed: to realize that the high-dimensionality of the textual set can be the main reason of the unexpected performance of the indexes and to suggest P, MPC, SF, K and T indexes for validate high dimensional data clustering using values in the range of [7.0; 10.0] for the fuzzification factor m.Submitted by Fernanda Eustáquio (nandaeustaquio7@gmail.com) on 2017-10-02T20:24:08Z No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Approved for entry into archive by NUBIA OLIVEIRA (nubia.marilia@ufba.br) on 2017-10-10T19:51:56Z (GMT) No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Made available in DSpace on 2017-10-10T19:51:56Z (GMT). No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Mineração de TextoÍndices de validação de agrupamento fuzzyAgrupamento fuzzyAgrupamento fuzzyÍndices de validaçãoMineração de TextoFator de fuzzificaçãoAlta dimensionalidadeUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis10000-01-01Departamento de Ciência da ComputaçãoInstituto de MatemáticaUFBABrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdfUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdfapplication/pdf7811723https://repositorio.ufba.br/bitstream/ri/24355/1/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf8e6b83bcd1d8b4e91abc170dcb610a30MD51LICENSElicense.txtlicense.txttext/plain1345https://repositorio.ufba.br/bitstream/ri/24355/2/license.txtff6eaa8b858ea317fded99f125f5fcd0MD52TEXTUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf.txtUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf.txtExtracted texttext/plain399391https://repositorio.ufba.br/bitstream/ri/24355/3/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf.txt513196a7f84a348142296153e8822fd1MD53ri/243552022-02-23 18:10:47.5oai:repositorio.ufba.br:ri/24355VGVybW8gZGUgTGljZW7vv71hLCBu77+9byBleGNsdXNpdm8sIHBhcmEgbyBkZXDvv71zaXRvIG5vIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVRkJBLgoKIFBlbG8gcHJvY2Vzc28gZGUgc3VibWlzc++/vW8gZGUgZG9jdW1lbnRvcywgbyBhdXRvciBvdSBzZXUgcmVwcmVzZW50YW50ZSBsZWdhbCwgYW8gYWNlaXRhciAKZXNzZSB0ZXJtbyBkZSBsaWNlbu+/vWEsIGNvbmNlZGUgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRhIEJhaGlhIApvIGRpcmVpdG8gZGUgbWFudGVyIHVtYSBj77+9cGlhIGVtIHNldSByZXBvc2l077+9cmlvIGNvbSBhIGZpbmFsaWRhZGUsIHByaW1laXJhLCBkZSBwcmVzZXJ2Ye+/ve+/vW8uIApFc3NlcyB0ZXJtb3MsIG7vv71vIGV4Y2x1c2l2b3MsIG1hbnTvv71tIG9zIGRpcmVpdG9zIGRlIGF1dG9yL2NvcHlyaWdodCwgbWFzIGVudGVuZGUgbyBkb2N1bWVudG8gCmNvbW8gcGFydGUgZG8gYWNlcnZvIGludGVsZWN0dWFsIGRlc3NhIFVuaXZlcnNpZGFkZS4KCiBQYXJhIG9zIGRvY3VtZW50b3MgcHVibGljYWRvcyBjb20gcmVwYXNzZSBkZSBkaXJlaXRvcyBkZSBkaXN0cmlidWnvv73vv71vLCBlc3NlIHRlcm1vIGRlIGxpY2Vu77+9YSAKZW50ZW5kZSBxdWU6CgogTWFudGVuZG8gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHJlcGFzc2Fkb3MgYSB0ZXJjZWlyb3MsIGVtIGNhc28gZGUgcHVibGljYe+/ve+/vWVzLCBvIHJlcG9zaXTvv71yaW8KcG9kZSByZXN0cmluZ2lyIG8gYWNlc3NvIGFvIHRleHRvIGludGVncmFsLCBtYXMgbGliZXJhIGFzIGluZm9ybWHvv73vv71lcyBzb2JyZSBvIGRvY3VtZW50bwooTWV0YWRhZG9zIGVzY3JpdGl2b3MpLgoKIERlc3RhIGZvcm1hLCBhdGVuZGVuZG8gYW9zIGFuc2Vpb3MgZGVzc2EgdW5pdmVyc2lkYWRlIGVtIG1hbnRlciBzdWEgcHJvZHXvv73vv71vIGNpZW5077+9ZmljYSBjb20gCmFzIHJlc3Ryae+/ve+/vWVzIGltcG9zdGFzIHBlbG9zIGVkaXRvcmVzIGRlIHBlcmnvv71kaWNvcy4KCiBQYXJhIGFzIHB1YmxpY2Hvv73vv71lcyBzZW0gaW5pY2lhdGl2YXMgcXVlIHNlZ3VlbSBhIHBvbO+/vXRpY2EgZGUgQWNlc3NvIEFiZXJ0bywgb3MgZGVw77+9c2l0b3MgCmNvbXB1bHPvv71yaW9zIG5lc3NlIHJlcG9zaXTvv71yaW8gbWFudO+/vW0gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIG1hcyBtYW5077+9bSBhY2Vzc28gaXJyZXN0cml0byAKYW8gbWV0YWRhZG9zIGUgdGV4dG8gY29tcGxldG8uIEFzc2ltLCBhIGFjZWl0Ye+/ve+/vW8gZGVzc2UgdGVybW8gbu+/vW8gbmVjZXNzaXRhIGRlIGNvbnNlbnRpbWVudG8KIHBvciBwYXJ0ZSBkZSBhdXRvcmVzL2RldGVudG9yZXMgZG9zIGRpcmVpdG9zLCBwb3IgZXN0YXJlbSBlbSBpbmljaWF0aXZhcyBkZSBhY2Vzc28gYWJlcnRvLgo=Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322022-02-23T21:10:47Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
spellingShingle Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
Eustáquio, Fernanda Silva
Mineração de Texto
Índices de validação de agrupamento fuzzy
Agrupamento fuzzy
Agrupamento fuzzy
Índices de validação
Mineração de Texto
Fator de fuzzificação
Alta dimensionalidade
title_short Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_full Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_fullStr Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_full_unstemmed Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_sort Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
author Eustáquio, Fernanda Silva
author_facet Eustáquio, Fernanda Silva
author_role author
dc.contributor.author.fl_str_mv Eustáquio, Fernanda Silva
dc.contributor.advisor1.fl_str_mv Rios, Tatiane Nogueira
dc.contributor.referee1.fl_str_mv Camargo, Heloisa de Arruda
Rios, Tatiane Nogueira
Rios, Ricardo Araújo
contributor_str_mv Rios, Tatiane Nogueira
Camargo, Heloisa de Arruda
Rios, Tatiane Nogueira
Rios, Ricardo Araújo
dc.subject.cnpq.fl_str_mv Mineração de Texto
Índices de validação de agrupamento fuzzy
Agrupamento fuzzy
topic Mineração de Texto
Índices de validação de agrupamento fuzzy
Agrupamento fuzzy
Agrupamento fuzzy
Índices de validação
Mineração de Texto
Fator de fuzzificação
Alta dimensionalidade
dc.subject.por.fl_str_mv Agrupamento fuzzy
Índices de validação
Mineração de Texto
Fator de fuzzificação
Alta dimensionalidade
description Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.
publishDate 2017
dc.date.submitted.none.fl_str_mv 2017-09-01
dc.date.accessioned.fl_str_mv 2017-10-10T19:51:56Z
dc.date.issued.fl_str_mv 2017-10-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufba.br/ri/handle/ri/24355
url http://repositorio.ufba.br/ri/handle/ri/24355
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Departamento de Ciência da Computação
Instituto de Matemática
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Departamento de Ciência da Computação
Instituto de Matemática
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/24355/1/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf
https://repositorio.ufba.br/bitstream/ri/24355/2/license.txt
https://repositorio.ufba.br/bitstream/ri/24355/3/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf.txt
bitstream.checksum.fl_str_mv 8e6b83bcd1d8b4e91abc170dcb610a30
ff6eaa8b858ea317fded99f125f5fcd0
513196a7f84a348142296153e8822fd1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_ 1808459547867611136