Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade

Eustáquio, Fernanda Silva

Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade

Detalhes bibliográficos
Autor(a) principal:	Eustáquio, Fernanda Silva
Data de Publicação:	2017
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFBA
Texto Completo:	http://repositorio.ufba.br/ri/handle/ri/24355
Resumo:	Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.

Metadados do item

id	UFBA-2_c84f53a7ed43ddf19b33f198394d7247
oai_identifier_str	oai:repositorio.ufba.br:ri/24355
network_acronym_str	UFBA-2
network_name_str	Repositório Institucional da UFBA
repository_id_str	1932
spelling	Eustáquio, Fernanda SilvaRios, Tatiane NogueiraCamargo, Heloisa de ArrudaRios, Tatiane NogueiraRios, Ricardo Araújo2017-10-10T19:51:56Z2017-10-102017-09-01http://repositorio.ufba.br/ri/handle/ri/24355Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.Clustering objects in clusters is one of the unsupervised tasks of machine learning. In this task, the objects are conventionally clustered into a number c of clusters previously informed, where an object belongs to only one of the clusters. However, if the learning problem is embedded in a context where it is desired that an object can belong to more than one cluster at a time, then Fuzzy Set Theory can be used to make flexible clustering. This flexibility in clustering objects will be given by a membership degree that each object will have in each clusters. This number of clusters must be informed as a parameter of the Fuzzy C-Means (FCM) algorithm used in this work to clustering high dimensional textual sets. However, if this value is not known and we want to know what the optimum number of clusters that fit the clustered dataset, the algorithm should be executed for each number of clusters defined in a range. Considering that different partitions will be generated for each of the values of c used, how to choose the best partition? That is, how to choose the generated partition that found the best structure contained in a dataset? The validity clustering is performed to verify that the partition generated by an algorithm is well structured and how many clusters this partition has. For two-dimensional data sets, this validation can be performed by visualizing the data. In case of larger data sets, this validation will be done through statistical indexes, which quantify the quality of the clustering obtained, identifying the most appropriate structure according to the data and the problem. These statistical indexes are called fuzzy clustering validity indexes. In this work, the validity indexes will be evaluated by studying how these indexes validated the clusters generated by FCM, that is, from the number of clusters indicated by each index, these will have their performances evaluated through the average calculation for when the optimal number of clusters chosen was equal to the correct, minimum or maximum amount (range of c given to FCM) of clusters. These average values allowed: to realize that the high-dimensionality of the textual set can be the main reason of the unexpected performance of the indexes and to suggest P, MPC, SF, K and T indexes for validate high dimensional data clustering using values in the range of [7.0; 10.0] for the fuzzification factor m.Submitted by Fernanda Eustáquio (nandaeustaquio7@gmail.com) on 2017-10-02T20:24:08Z No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Approved for entry into archive by NUBIA OLIVEIRA (nubia.marilia@ufba.br) on 2017-10-10T19:51:56Z (GMT) No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Made available in DSpace on 2017-10-10T19:51:56Z (GMT). No. of bitstreams: 1 Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf: 7811723 bytes, checksum: 8e6b83bcd1d8b4e91abc170dcb610a30 (MD5)Mineração de TextoÍndices de validação de agrupamento fuzzyAgrupamento fuzzyAgrupamento fuzzyÍndices de validaçãoMineração de TextoFator de fuzzificaçãoAlta dimensionalidadeUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis10000-01-01Departamento de Ciência da ComputaçãoInstituto de MatemáticaUFBABrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdfUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdfapplication/pdf7811723https://repositorio.ufba.br/bitstream/ri/24355/1/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf8e6b83bcd1d8b4e91abc170dcb610a30MD51LICENSElicense.txtlicense.txttext/plain1345https://repositorio.ufba.br/bitstream/ri/24355/2/license.txtff6eaa8b858ea317fded99f125f5fcd0MD52TEXTUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf.txtUm estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf.txtExtracted texttext/plain399391https://repositorio.ufba.br/bitstream/ri/24355/3/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf.txt513196a7f84a348142296153e8822fd1MD53ri/243552022-02-23 18:10:47.5oai:repositorio.ufba.br:ri/24355VGVybW8gZGUgTGljZW7vv71hLCBu77+9byBleGNsdXNpdm8sIHBhcmEgbyBkZXDvv71zaXRvIG5vIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVRkJBLgoKIFBlbG8gcHJvY2Vzc28gZGUgc3VibWlzc++/vW8gZGUgZG9jdW1lbnRvcywgbyBhdXRvciBvdSBzZXUgcmVwcmVzZW50YW50ZSBsZWdhbCwgYW8gYWNlaXRhciAKZXNzZSB0ZXJtbyBkZSBsaWNlbu+/vWEsIGNvbmNlZGUgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRhIEJhaGlhIApvIGRpcmVpdG8gZGUgbWFudGVyIHVtYSBj77+9cGlhIGVtIHNldSByZXBvc2l077+9cmlvIGNvbSBhIGZpbmFsaWRhZGUsIHByaW1laXJhLCBkZSBwcmVzZXJ2Ye+/ve+/vW8uIApFc3NlcyB0ZXJtb3MsIG7vv71vIGV4Y2x1c2l2b3MsIG1hbnTvv71tIG9zIGRpcmVpdG9zIGRlIGF1dG9yL2NvcHlyaWdodCwgbWFzIGVudGVuZGUgbyBkb2N1bWVudG8gCmNvbW8gcGFydGUgZG8gYWNlcnZvIGludGVsZWN0dWFsIGRlc3NhIFVuaXZlcnNpZGFkZS4KCiBQYXJhIG9zIGRvY3VtZW50b3MgcHVibGljYWRvcyBjb20gcmVwYXNzZSBkZSBkaXJlaXRvcyBkZSBkaXN0cmlidWnvv73vv71vLCBlc3NlIHRlcm1vIGRlIGxpY2Vu77+9YSAKZW50ZW5kZSBxdWU6CgogTWFudGVuZG8gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHJlcGFzc2Fkb3MgYSB0ZXJjZWlyb3MsIGVtIGNhc28gZGUgcHVibGljYe+/ve+/vWVzLCBvIHJlcG9zaXTvv71yaW8KcG9kZSByZXN0cmluZ2lyIG8gYWNlc3NvIGFvIHRleHRvIGludGVncmFsLCBtYXMgbGliZXJhIGFzIGluZm9ybWHvv73vv71lcyBzb2JyZSBvIGRvY3VtZW50bwooTWV0YWRhZG9zIGVzY3JpdGl2b3MpLgoKIERlc3RhIGZvcm1hLCBhdGVuZGVuZG8gYW9zIGFuc2Vpb3MgZGVzc2EgdW5pdmVyc2lkYWRlIGVtIG1hbnRlciBzdWEgcHJvZHXvv73vv71vIGNpZW5077+9ZmljYSBjb20gCmFzIHJlc3Ryae+/ve+/vWVzIGltcG9zdGFzIHBlbG9zIGVkaXRvcmVzIGRlIHBlcmnvv71kaWNvcy4KCiBQYXJhIGFzIHB1YmxpY2Hvv73vv71lcyBzZW0gaW5pY2lhdGl2YXMgcXVlIHNlZ3VlbSBhIHBvbO+/vXRpY2EgZGUgQWNlc3NvIEFiZXJ0bywgb3MgZGVw77+9c2l0b3MgCmNvbXB1bHPvv71yaW9zIG5lc3NlIHJlcG9zaXTvv71yaW8gbWFudO+/vW0gb3MgZGlyZWl0b3MgYXV0b3JhaXMsIG1hcyBtYW5077+9bSBhY2Vzc28gaXJyZXN0cml0byAKYW8gbWV0YWRhZG9zIGUgdGV4dG8gY29tcGxldG8uIEFzc2ltLCBhIGFjZWl0Ye+/ve+/vW8gZGVzc2UgdGVybW8gbu+/vW8gbmVjZXNzaXRhIGRlIGNvbnNlbnRpbWVudG8KIHBvciBwYXJ0ZSBkZSBhdXRvcmVzL2RldGVudG9yZXMgZG9zIGRpcmVpdG9zLCBwb3IgZXN0YXJlbSBlbSBpbmljaWF0aXZhcyBkZSBhY2Vzc28gYWJlcnRvLgo=Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322022-02-23T21:10:47Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
spellingShingle	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade Eustáquio, Fernanda Silva Mineração de Texto Índices de validação de agrupamento fuzzy Agrupamento fuzzy Agrupamento fuzzy Índices de validação Mineração de Texto Fator de fuzzificação Alta dimensionalidade
title_short	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_full	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_fullStr	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_full_unstemmed	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
title_sort	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
author	Eustáquio, Fernanda Silva
author_facet	Eustáquio, Fernanda Silva
author_role	author
dc.contributor.author.fl_str_mv	Eustáquio, Fernanda Silva
dc.contributor.advisor1.fl_str_mv	Rios, Tatiane Nogueira
dc.contributor.referee1.fl_str_mv	Camargo, Heloisa de Arruda Rios, Tatiane Nogueira Rios, Ricardo Araújo
contributor_str_mv	Rios, Tatiane Nogueira Camargo, Heloisa de Arruda Rios, Tatiane Nogueira Rios, Ricardo Araújo
dc.subject.cnpq.fl_str_mv	Mineração de Texto Índices de validação de agrupamento fuzzy Agrupamento fuzzy
topic	Mineração de Texto Índices de validação de agrupamento fuzzy Agrupamento fuzzy Agrupamento fuzzy Índices de validação Mineração de Texto Fator de fuzzificação Alta dimensionalidade
dc.subject.por.fl_str_mv	Agrupamento fuzzy Índices de validação Mineração de Texto Fator de fuzzificação Alta dimensionalidade
description	Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m.
publishDate	2017
dc.date.submitted.none.fl_str_mv	2017-09-01
dc.date.accessioned.fl_str_mv	2017-10-10T19:51:56Z
dc.date.issued.fl_str_mv	2017-10-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://repositorio.ufba.br/ri/handle/ri/24355
url	http://repositorio.ufba.br/ri/handle/ri/24355
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Departamento de Ciência da Computação Instituto de Matemática
dc.publisher.initials.fl_str_mv	UFBA
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Departamento de Ciência da Computação Instituto de Matemática
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA
instname_str	Universidade Federal da Bahia (UFBA)
instacron_str	UFBA
institution	UFBA
reponame_str	Repositório Institucional da UFBA
collection	Repositório Institucional da UFBA
bitstream.url.fl_str_mv	https://repositorio.ufba.br/bitstream/ri/24355/1/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf https://repositorio.ufba.br/bitstream/ri/24355/2/license.txt https://repositorio.ufba.br/bitstream/ri/24355/3/Um%20estudo%20sobre%20%c3%adndices%20de%20valida%c3%a7%c3%a3o%20de%20agrupamento%20fuzzy%20para%20dados%20de%20alta-dimensionalidade.pdf.txt
bitstream.checksum.fl_str_mv	8e6b83bcd1d8b4e91abc170dcb610a30 ff6eaa8b858ea317fded99f125f5fcd0 513196a7f84a348142296153e8822fd1
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_	1808459547867611136

Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade

Registros relacionados