Agrupamento fuzzy kernelizado adaptado para dados faltantes
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/001300000htvr |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/35328 |
Resumo: | Em muitas áreas da ciência, conjuntos de dados e procedimentos estatísticos são frequentemente afetados por valores ausentes (missing values). Na análise de agrupamento, a falta de dados pode prejudicar a formação dos grupos. Muitos métodos de agrupamento para dados incompletos presentes na literatura não levam em consideração os pesos ou a relevância das variáveis na formação dos grupos clusters. Este trabalho tem como objetivo propor e avaliar o método de agrupamento de núcleos Fuzzy C-means com Kernelização da Métrica via distâncias adaptativas locais (VKFCM-K-LP) sob três tipos de estratégias para dados faltantes. A primeira estratégia denominada como Estratégia de Dados Completos (EDC ou Whole Data Strategy), realiza o agrupamento apenas com o conjunto de dados completos, ou seja, nesta estratégia as observações ausentes são excluídas da análise. A EDC pode ser aplicada no agrupamento desde que os valores ausentes não ultrapassem a porcentagem de 25% de todos os valores observados. A segunda abordagem usa a estratégia de distância parcial (EDP ou Partial Distance Strategy), onde são calculadas as distâncias parciais entre todos os dados disponíveis e, em seguida, reescalonadas pela recíproca da proporção dos valores observados. A terceira técnica, Estratégia de Conclusão Ótima (ECO ou Optimal Completion Strategy), calcula valores ausentes de forma iterativa como variáveis auxiliares na otimização de uma função objetivo. Para a avaliação do método VKFCM-K-LP com as estratégias EDC, EDP e ECO, foram utilizados conjuntos de dados com 5%, 10%, 15% e 20% de valores ofaltantes. Os resultados do agrupamento foram analisados de acordo com as medições CR, FM e OERC. O melhor desempenho do agrupamento foi obtido pelas estratégias EDP e ECO. Nos grupos com a abordagem ECO, novas bases de dados foram derivadas e os valores faltantes foram estimados no processo de otimização. Os resultados do agrupamento com a estratégia ECO apresentaram desempenhos superiores quando comparados aos grupos de resultados obtidos a partir do conjunto de dados em que os valores faltantes foram imputados pela média e mediana dos valores observados. |
id |
UFPE_ae873ffc54c1447548bbcf27d4a282ec |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/35328 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
RODRIGUES, Anny Kerollayny Gomeshttp://lattes.cnpq.br/4199319885081648http://lattes.cnpq.br/6357960802605841http://lattes.cnpq.br/2620157217100077OSPINA MARTÍNEZ, RaydonalFERREIRA, Marcelo Rodrigo Portela2019-11-25T20:35:56Z2019-11-25T20:35:56Z2019-07-30RODRIGUES, Anny Kerollayny Gomes. Agrupamento fuzzy kernelizado adaptado para dados faltantes. 2019. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/35328ark:/64986/001300000htvrEm muitas áreas da ciência, conjuntos de dados e procedimentos estatísticos são frequentemente afetados por valores ausentes (missing values). Na análise de agrupamento, a falta de dados pode prejudicar a formação dos grupos. Muitos métodos de agrupamento para dados incompletos presentes na literatura não levam em consideração os pesos ou a relevância das variáveis na formação dos grupos clusters. Este trabalho tem como objetivo propor e avaliar o método de agrupamento de núcleos Fuzzy C-means com Kernelização da Métrica via distâncias adaptativas locais (VKFCM-K-LP) sob três tipos de estratégias para dados faltantes. A primeira estratégia denominada como Estratégia de Dados Completos (EDC ou Whole Data Strategy), realiza o agrupamento apenas com o conjunto de dados completos, ou seja, nesta estratégia as observações ausentes são excluídas da análise. A EDC pode ser aplicada no agrupamento desde que os valores ausentes não ultrapassem a porcentagem de 25% de todos os valores observados. A segunda abordagem usa a estratégia de distância parcial (EDP ou Partial Distance Strategy), onde são calculadas as distâncias parciais entre todos os dados disponíveis e, em seguida, reescalonadas pela recíproca da proporção dos valores observados. A terceira técnica, Estratégia de Conclusão Ótima (ECO ou Optimal Completion Strategy), calcula valores ausentes de forma iterativa como variáveis auxiliares na otimização de uma função objetivo. Para a avaliação do método VKFCM-K-LP com as estratégias EDC, EDP e ECO, foram utilizados conjuntos de dados com 5%, 10%, 15% e 20% de valores ofaltantes. Os resultados do agrupamento foram analisados de acordo com as medições CR, FM e OERC. O melhor desempenho do agrupamento foi obtido pelas estratégias EDP e ECO. Nos grupos com a abordagem ECO, novas bases de dados foram derivadas e os valores faltantes foram estimados no processo de otimização. Os resultados do agrupamento com a estratégia ECO apresentaram desempenhos superiores quando comparados aos grupos de resultados obtidos a partir do conjunto de dados em que os valores faltantes foram imputados pela média e mediana dos valores observados.CAPESIn many areas of science. data sets and statistical procedures are often affected by missing values. In clustering analysis, lack of data may impair the formation of groups. Many clustering methods for incomplete data present in the literature do not take into account the weights or the relevance of the variables in the construction of the clusters. This work aims to propose and evaluate the method of Fuzzy C-means kernel clustering with metric kernelization via local adaptive distances (VKFCM-K-LP) under three types of strategies for missing data. The first strategy called Whole Data Strategy (EDC) performs clustering only with the complete data set, is in this strategy the missing patterns are excluded from the analysis. The EDC can be applied in the cluster as long as the missing values do not exceed the percentage of 25% of all observed values. The second approach uses the Partial Distance Strategy (EDP) where is calculated the partial distances between all available resources and then rescaled by the reciprocal of the proportion of observed values. The third technique, Optimal Completion Strategy (ECO), computes missing values iteratively as auxiliary variables in the optimization of an objective function. For the evaluation of the VKFCM-K-LP method with EDC, EDP and ECO strategies, data sets with 5%, 10%, 15% and 20% of missing values were used. The results of the clustering were analyzed according to the CR, FM and OERC measurements. The best performance of the clustering was obtained by the EDP and ECO strategies. In the clusters with the ECO approach, new databases were derived, and the missing values were estimated in the optimization process. The results of clustering with the ECO strategy presented superior performance when compared to the result clusters obtained from the dataset in which the missing values were imputed by the mean and median of the observed values.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em EstatisticaUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessEstatísticaDados incompletosAgrupamento fuzzyAgrupamento fuzzy kernelizado adaptado para dados faltantesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdfDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdfapplication/pdf1015860https://repositorio.ufpe.br/bitstream/123456789/35328/1/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdfe1639544dab4e926d11a63a74db745e4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/35328/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufpe.br/bitstream/123456789/35328/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdf.txtDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdf.txtExtracted texttext/plain116530https://repositorio.ufpe.br/bitstream/123456789/35328/4/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdf.txtbe08c80cfef88644d5dcda900e49d082MD54THUMBNAILDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdf.jpgDISSERTAÇÃO Anny Kerollayny Gomes Rodrigues.pdf.jpgGenerated Thumbnailimage/jpeg1192https://repositorio.ufpe.br/bitstream/123456789/35328/5/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdf.jpgde1790a1d09f995b0409f307e67a23f2MD55123456789/353282019-11-26 02:11:15.615oai:repositorio.ufpe.br:123456789/35328Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-11-26T05:11:15Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
title |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
spellingShingle |
Agrupamento fuzzy kernelizado adaptado para dados faltantes RODRIGUES, Anny Kerollayny Gomes Estatística Dados incompletos Agrupamento fuzzy |
title_short |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
title_full |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
title_fullStr |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
title_full_unstemmed |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
title_sort |
Agrupamento fuzzy kernelizado adaptado para dados faltantes |
author |
RODRIGUES, Anny Kerollayny Gomes |
author_facet |
RODRIGUES, Anny Kerollayny Gomes |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4199319885081648 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/6357960802605841 |
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2620157217100077 |
dc.contributor.author.fl_str_mv |
RODRIGUES, Anny Kerollayny Gomes |
dc.contributor.advisor1.fl_str_mv |
OSPINA MARTÍNEZ, Raydonal |
dc.contributor.advisor-co1.fl_str_mv |
FERREIRA, Marcelo Rodrigo Portela |
contributor_str_mv |
OSPINA MARTÍNEZ, Raydonal FERREIRA, Marcelo Rodrigo Portela |
dc.subject.por.fl_str_mv |
Estatística Dados incompletos Agrupamento fuzzy |
topic |
Estatística Dados incompletos Agrupamento fuzzy |
description |
Em muitas áreas da ciência, conjuntos de dados e procedimentos estatísticos são frequentemente afetados por valores ausentes (missing values). Na análise de agrupamento, a falta de dados pode prejudicar a formação dos grupos. Muitos métodos de agrupamento para dados incompletos presentes na literatura não levam em consideração os pesos ou a relevância das variáveis na formação dos grupos clusters. Este trabalho tem como objetivo propor e avaliar o método de agrupamento de núcleos Fuzzy C-means com Kernelização da Métrica via distâncias adaptativas locais (VKFCM-K-LP) sob três tipos de estratégias para dados faltantes. A primeira estratégia denominada como Estratégia de Dados Completos (EDC ou Whole Data Strategy), realiza o agrupamento apenas com o conjunto de dados completos, ou seja, nesta estratégia as observações ausentes são excluídas da análise. A EDC pode ser aplicada no agrupamento desde que os valores ausentes não ultrapassem a porcentagem de 25% de todos os valores observados. A segunda abordagem usa a estratégia de distância parcial (EDP ou Partial Distance Strategy), onde são calculadas as distâncias parciais entre todos os dados disponíveis e, em seguida, reescalonadas pela recíproca da proporção dos valores observados. A terceira técnica, Estratégia de Conclusão Ótima (ECO ou Optimal Completion Strategy), calcula valores ausentes de forma iterativa como variáveis auxiliares na otimização de uma função objetivo. Para a avaliação do método VKFCM-K-LP com as estratégias EDC, EDP e ECO, foram utilizados conjuntos de dados com 5%, 10%, 15% e 20% de valores ofaltantes. Os resultados do agrupamento foram analisados de acordo com as medições CR, FM e OERC. O melhor desempenho do agrupamento foi obtido pelas estratégias EDP e ECO. Nos grupos com a abordagem ECO, novas bases de dados foram derivadas e os valores faltantes foram estimados no processo de otimização. Os resultados do agrupamento com a estratégia ECO apresentaram desempenhos superiores quando comparados aos grupos de resultados obtidos a partir do conjunto de dados em que os valores faltantes foram imputados pela média e mediana dos valores observados. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-11-25T20:35:56Z |
dc.date.available.fl_str_mv |
2019-11-25T20:35:56Z |
dc.date.issued.fl_str_mv |
2019-07-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
RODRIGUES, Anny Kerollayny Gomes. Agrupamento fuzzy kernelizado adaptado para dados faltantes. 2019. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2019. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/35328 |
dc.identifier.dark.fl_str_mv |
ark:/64986/001300000htvr |
identifier_str_mv |
RODRIGUES, Anny Kerollayny Gomes. Agrupamento fuzzy kernelizado adaptado para dados faltantes. 2019. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2019. ark:/64986/001300000htvr |
url |
https://repositorio.ufpe.br/handle/123456789/35328 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/embargoedAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
embargoedAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Estatistica |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/35328/1/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdf https://repositorio.ufpe.br/bitstream/123456789/35328/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/35328/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/35328/4/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/35328/5/DISSERTA%c3%87%c3%83O%20Anny%20Kerollayny%20Gomes%20Rodrigues.pdf.jpg |
bitstream.checksum.fl_str_mv |
e1639544dab4e926d11a63a74db745e4 e39d27027a6cc9cb039ad269a5db8e34 8a4605be74aa9ea9d79846c1fba20a33 be08c80cfef88644d5dcda900e49d082 de1790a1d09f995b0409f307e67a23f2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815172831756943360 |