Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means

Detalhes bibliográficos
Autor(a) principal: PIMENTEL, Bruno Almeida
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPE
dARK ID: ark:/64986/001300000bb2h
Texto Completo: https://repositorio.ufpe.br/handle/123456789/27506
Resumo: A prática de agrupar objetos de acordo com as similaridades e propriedades observadas é uma atividade importante para muitos ramos da ciência. A sua importância deve-se ao fato que a organização dos dados em grupos é uma forma fundamental para entender e aprender sobre eles. Em Biologia, por exemplo, existe a preocupação de dividir os diferentes animais ou plantas em grupos para melhor entendimento das funções biológicas. Em muitas problemas, além de informar a qual grupo um determinado objeto pertence, é necessário entender quão similar este objeto está para todos os grupos da partição devido à imprecisão ou incerteza dos dados, surgindo, assim, o agrupamento difuso. O principal método de agrupamento difuso bastante conhecido é o Fuzzy C-Means (FCM), o qual tem algumas desvantagens tal como considerar que todos os grupos possuem formas esféricas. Outra desvantagem é que não existe a possibilidade de analisar qual variável (ou um sub-conjunto delas) foi mais importante para definir o valor final do grau de pertinência. Este trabalho apresenta diferentes métodos de agrupamento usando a abordagem difusa presentes na literatura atual e introduz métodos de agrupamento difuso onde os graus de pertinência são multivariados. Desta forma, dado um objeto, é possível calcular o grau dele pertencer a um dado grupo segundo uma variável. A partir deste tipo de grau de pertinência multivariado, duas vantagens podem ser apontadas: 1 - capacidade de interpretar a pertinência de cada objeto para um dado grupo segundo cada variável; 2 - obtenção de mais informação dos dados levando a uma maior qualidade de agrupamento. O objetivo deste trabalho é propor duas categorias de métodos: a primeira é baseada no Fuzzy C-Means e a segunda é baseada no Possibilistic Fuzzy C-Means. Além disso, também são propostos índices de interpretação para avaliar a qualidade do agrupamento para grupo e variável a partir da partição difusa obtida por cada método proposto. Com o objetivo de avaliar o desempenho dos métodos, um estudo comparativo em relação ao agrupamento difuso usando o experimento Monte Carlo é realizado. Foram planejados experimentos com dados sintéticos e reais e um índice de validação é usado para avaliar os métodos. Além disso, aplicação com dados biológicos é apresentada mostrando a utilidade dos métodos propostos. Os resultados mostraram que os métodos multivariados são preferíveis quando as variáveis são independentes e possuem variabilidades intra-classe diferentes.
id UFPE_f8e76fa760ae7f58cd4b671f525283e9
oai_identifier_str oai:repositorio.ufpe.br:123456789/27506
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling PIMENTEL, Bruno Almeidahttp://lattes.cnpq.br/5575405279834457http://lattes.cnpq.br/9289080285504453SOUZA, Renata Maria Cardoso Rodrigues de2018-11-14T20:59:03Z2018-11-14T20:59:03Z2017-09-21https://repositorio.ufpe.br/handle/123456789/27506ark:/64986/001300000bb2hA prática de agrupar objetos de acordo com as similaridades e propriedades observadas é uma atividade importante para muitos ramos da ciência. A sua importância deve-se ao fato que a organização dos dados em grupos é uma forma fundamental para entender e aprender sobre eles. Em Biologia, por exemplo, existe a preocupação de dividir os diferentes animais ou plantas em grupos para melhor entendimento das funções biológicas. Em muitas problemas, além de informar a qual grupo um determinado objeto pertence, é necessário entender quão similar este objeto está para todos os grupos da partição devido à imprecisão ou incerteza dos dados, surgindo, assim, o agrupamento difuso. O principal método de agrupamento difuso bastante conhecido é o Fuzzy C-Means (FCM), o qual tem algumas desvantagens tal como considerar que todos os grupos possuem formas esféricas. Outra desvantagem é que não existe a possibilidade de analisar qual variável (ou um sub-conjunto delas) foi mais importante para definir o valor final do grau de pertinência. Este trabalho apresenta diferentes métodos de agrupamento usando a abordagem difusa presentes na literatura atual e introduz métodos de agrupamento difuso onde os graus de pertinência são multivariados. Desta forma, dado um objeto, é possível calcular o grau dele pertencer a um dado grupo segundo uma variável. A partir deste tipo de grau de pertinência multivariado, duas vantagens podem ser apontadas: 1 - capacidade de interpretar a pertinência de cada objeto para um dado grupo segundo cada variável; 2 - obtenção de mais informação dos dados levando a uma maior qualidade de agrupamento. O objetivo deste trabalho é propor duas categorias de métodos: a primeira é baseada no Fuzzy C-Means e a segunda é baseada no Possibilistic Fuzzy C-Means. Além disso, também são propostos índices de interpretação para avaliar a qualidade do agrupamento para grupo e variável a partir da partição difusa obtida por cada método proposto. Com o objetivo de avaliar o desempenho dos métodos, um estudo comparativo em relação ao agrupamento difuso usando o experimento Monte Carlo é realizado. Foram planejados experimentos com dados sintéticos e reais e um índice de validação é usado para avaliar os métodos. Além disso, aplicação com dados biológicos é apresentada mostrando a utilidade dos métodos propostos. Os resultados mostraram que os métodos multivariados são preferíveis quando as variáveis são independentes e possuem variabilidades intra-classe diferentes.CNPqThe practice of classifying objects according to the observed similarities and properties is an important activity for many branches of science. Its importance is due to the fact that the organization of data into groups is a fundamental mode to understand and learn about ones. In Biology, for example, there is concern divide the different animals or plants into groups for better understanding of biological functions. In many problems, besides informing the group which a particular object belongs, it is necessary to understand how this object is similar for all groups due to of the vagueness or uncertainty of the data, emerging, so the fuzzy clustering. The primary method of fuzzy clustering is the Fuzzy C-Means (FCM), which has some disadvantages as considering that all groups have spherical shapes. Another disadvantage is that there is not the possibility to analyze which variable (or a subset of them) was more important to set the final value of the degree of membership. This work presents different clustering methods using fuzzy approach present in the current literature and introduces fuzzy clustering methods where the degrees of membership are multivariate. Thus, given an object, it is possible to calculate the degree it belongs to a group according to a given variable. From this type of degree multivariate relevance, two advantages can be pointed out: 1 - ability to interpret the relevance of each object for a given group according to each variable; 2 – getting more information from the data leading to a better quality of clustering. The objective of this work is to propose two types of methods: the first one is based on the Fuzzy C-Means and the second one is based on the Possibilistic Fuzzy C-Means. Moreover, interpretation indices are also proposed for assessing the quality of the clustering according to each cluster and variable from a fuzzy partition obtained by each proposed method. Aiming to evaluate the performance of the methods, a comparative study with respect to fuzzy clustering using the Monte Carlo experiment is carried out. Experiments with synthetic and real data and a validation index is used to evaluate the methods were planned. Furthermore, application with biological data is presented showing the usefulness of the proposed methods. The results showed that multivariate methods are preferable when the variables are independent and have different intra-class variabilities.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalAnálise de agrupamentoMétodos de agrupamento difuso multivariado baseados no Fuzzy C-meansinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Bruno Almeida Pimentel.pdf.jpgTESE Bruno Almeida Pimentel.pdf.jpgGenerated Thumbnailimage/jpeg1221https://repositorio.ufpe.br/bitstream/123456789/27506/5/TESE%20Bruno%20Almeida%20Pimentel.pdf.jpg19b66a22ce96a81eb43202b3c88af79dMD55ORIGINALTESE Bruno Almeida Pimentel.pdfTESE Bruno Almeida Pimentel.pdfapplication/pdf1823660https://repositorio.ufpe.br/bitstream/123456789/27506/1/TESE%20Bruno%20Almeida%20Pimentel.pdf2dda6d26c679f00a5e642b456730f356MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/27506/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/27506/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTTESE Bruno Almeida Pimentel.pdf.txtTESE Bruno Almeida Pimentel.pdf.txtExtracted texttext/plain280550https://repositorio.ufpe.br/bitstream/123456789/27506/4/TESE%20Bruno%20Almeida%20Pimentel.pdf.txt3c521a66ef2a005c91c9537f40ef06a8MD54123456789/275062019-10-25 09:03:58.423oai:repositorio.ufpe.br:123456789/27506TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T12:03:58Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
title Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
spellingShingle Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
PIMENTEL, Bruno Almeida
Inteligência computacional
Análise de agrupamento
title_short Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
title_full Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
title_fullStr Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
title_full_unstemmed Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
title_sort Métodos de agrupamento difuso multivariado baseados no Fuzzy C-means
author PIMENTEL, Bruno Almeida
author_facet PIMENTEL, Bruno Almeida
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5575405279834457
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9289080285504453
dc.contributor.author.fl_str_mv PIMENTEL, Bruno Almeida
dc.contributor.advisor1.fl_str_mv SOUZA, Renata Maria Cardoso Rodrigues de
contributor_str_mv SOUZA, Renata Maria Cardoso Rodrigues de
dc.subject.por.fl_str_mv Inteligência computacional
Análise de agrupamento
topic Inteligência computacional
Análise de agrupamento
description A prática de agrupar objetos de acordo com as similaridades e propriedades observadas é uma atividade importante para muitos ramos da ciência. A sua importância deve-se ao fato que a organização dos dados em grupos é uma forma fundamental para entender e aprender sobre eles. Em Biologia, por exemplo, existe a preocupação de dividir os diferentes animais ou plantas em grupos para melhor entendimento das funções biológicas. Em muitas problemas, além de informar a qual grupo um determinado objeto pertence, é necessário entender quão similar este objeto está para todos os grupos da partição devido à imprecisão ou incerteza dos dados, surgindo, assim, o agrupamento difuso. O principal método de agrupamento difuso bastante conhecido é o Fuzzy C-Means (FCM), o qual tem algumas desvantagens tal como considerar que todos os grupos possuem formas esféricas. Outra desvantagem é que não existe a possibilidade de analisar qual variável (ou um sub-conjunto delas) foi mais importante para definir o valor final do grau de pertinência. Este trabalho apresenta diferentes métodos de agrupamento usando a abordagem difusa presentes na literatura atual e introduz métodos de agrupamento difuso onde os graus de pertinência são multivariados. Desta forma, dado um objeto, é possível calcular o grau dele pertencer a um dado grupo segundo uma variável. A partir deste tipo de grau de pertinência multivariado, duas vantagens podem ser apontadas: 1 - capacidade de interpretar a pertinência de cada objeto para um dado grupo segundo cada variável; 2 - obtenção de mais informação dos dados levando a uma maior qualidade de agrupamento. O objetivo deste trabalho é propor duas categorias de métodos: a primeira é baseada no Fuzzy C-Means e a segunda é baseada no Possibilistic Fuzzy C-Means. Além disso, também são propostos índices de interpretação para avaliar a qualidade do agrupamento para grupo e variável a partir da partição difusa obtida por cada método proposto. Com o objetivo de avaliar o desempenho dos métodos, um estudo comparativo em relação ao agrupamento difuso usando o experimento Monte Carlo é realizado. Foram planejados experimentos com dados sintéticos e reais e um índice de validação é usado para avaliar os métodos. Além disso, aplicação com dados biológicos é apresentada mostrando a utilidade dos métodos propostos. Os resultados mostraram que os métodos multivariados são preferíveis quando as variáveis são independentes e possuem variabilidades intra-classe diferentes.
publishDate 2017
dc.date.issued.fl_str_mv 2017-09-21
dc.date.accessioned.fl_str_mv 2018-11-14T20:59:03Z
dc.date.available.fl_str_mv 2018-11-14T20:59:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/27506
dc.identifier.dark.fl_str_mv ark:/64986/001300000bb2h
url https://repositorio.ufpe.br/handle/123456789/27506
identifier_str_mv ark:/64986/001300000bb2h
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/27506/5/TESE%20Bruno%20Almeida%20Pimentel.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/27506/1/TESE%20Bruno%20Almeida%20Pimentel.pdf
https://repositorio.ufpe.br/bitstream/123456789/27506/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/27506/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/27506/4/TESE%20Bruno%20Almeida%20Pimentel.pdf.txt
bitstream.checksum.fl_str_mv 19b66a22ce96a81eb43202b3c88af79d
2dda6d26c679f00a5e642b456730f356
e39d27027a6cc9cb039ad269a5db8e34
4b8a02c7f2818eaf00dcf2260dd5eb08
3c521a66ef2a005c91c9537f40ef06a8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1815172777630498816