Algoritmos para determinação do número de grupos em estudos de formas planas

Detalhes bibliográficos
Autor(a) principal: OLIVEIRA, Rodrigo Alves de
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/17314
Resumo: Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos.
id UFPE_946df0a875eaa2e50e2788d8ad3af5ad
oai_identifier_str oai:repositorio.ufpe.br:123456789/17314
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling OLIVEIRA, Rodrigo Alves deAMARAL, Getúlio José Amorim doSOUZA, Renata Maria Cardoso Rodrigues de2016-07-11T16:55:56Z2016-07-11T16:55:56Z2016-02-05https://repositorio.ufpe.br/handle/123456789/17314Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos.CAPESStatistical Shape Analysis is a useful and solid area of knowledge for deal objects structures study and geometrical information. In order to describe two-dimensional objects you must specify a coordinate system which must be filter out translation, rotation and scale information of the setting as the Kendall coordinates. One linearized version of the shape space in the vicinity of a particular point of shape space is the tangent coordinates, that belongs to the Euclidian space, so all multivariate analysis may be used. On several occasions it is necessary to group data sets in such a way that it has groups with more homogeneous characteristics together. Therefore, Amaral et al. (2010a) developed the K-means algorithm to deal with shape analysis. Because of the disadvantages of this algorithm, Jayasumana et al. (2013) proposed Kernel K-means algoritm. These two algorithms depends on the choice of the number of groups, K. And for second, to estimate the bandwidth parameter. In situations in which there is no known labels groups, the choice of an appropriate value for K is difficult. To overcome this challenge, validity measures attempt to determine how accurately the clusters reflect the data. However, numerous validity measures proliferate, and different measures often produce disparate results. This paper introduces methods to compute the number of groups in a given data set that deal with the nature of the planar shapes. The proposed methods are based on the validity of measures Silhoutte, Davies-Bouldin and Procrustes Residuals. Samples were generated from two populations of complex Bingham distribution which is supported on the unit sphere; and also samples of two populatoin with space in the landmarks. Considered some scenarios with high and low concentration of data. It is noticed that the contents are properly coordinated tangent to the number of groups for high-concentration data, as well as modified indices for Kendall coordinates. Already in situations with low concentration indexes to coordinate tangents do not work well, so do not identify the correct number of groups, by contrast, the indexes with the nature of planar shapes can estimate the true number of groups for the simulated data. The most suitable index are Procrustes Residuals and Davies-Bouldin adapted the second time. Real data analysis shows that the existing index for tangent coordinates and indexes modified to Kendall coordinates estimate the correct number of groups.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em EstatisticaUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAnálise multivariadaEstatística aplicadaAnálise de agrupamentoAlgoritmos para determinação do número de grupos em estudos de formas planasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILRodrigo_CD.pdf.jpgRodrigo_CD.pdf.jpgGenerated Thumbnailimage/jpeg1400https://repositorio.ufpe.br/bitstream/123456789/17314/5/Rodrigo_CD.pdf.jpg02b08950471507a0a7af1c51c3c4e7d2MD55ORIGINALRodrigo_CD.pdfRodrigo_CD.pdfapplication/pdf1954769https://repositorio.ufpe.br/bitstream/123456789/17314/1/Rodrigo_CD.pdf1848fe54bf3979180fcfc4966a04b492MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/17314/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/17314/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTRodrigo_CD.pdf.txtRodrigo_CD.pdf.txtExtracted texttext/plain142040https://repositorio.ufpe.br/bitstream/123456789/17314/4/Rodrigo_CD.pdf.txt1c667d35f96cd8396149eded9c177d76MD54123456789/173142019-10-25 11:35:01.014oai:repositorio.ufpe.br:123456789/17314TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T14:35:01Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Algoritmos para determinação do número de grupos em estudos de formas planas
title Algoritmos para determinação do número de grupos em estudos de formas planas
spellingShingle Algoritmos para determinação do número de grupos em estudos de formas planas
OLIVEIRA, Rodrigo Alves de
Análise multivariada
Estatística aplicada
Análise de agrupamento
title_short Algoritmos para determinação do número de grupos em estudos de formas planas
title_full Algoritmos para determinação do número de grupos em estudos de formas planas
title_fullStr Algoritmos para determinação do número de grupos em estudos de formas planas
title_full_unstemmed Algoritmos para determinação do número de grupos em estudos de formas planas
title_sort Algoritmos para determinação do número de grupos em estudos de formas planas
author OLIVEIRA, Rodrigo Alves de
author_facet OLIVEIRA, Rodrigo Alves de
author_role author
dc.contributor.author.fl_str_mv OLIVEIRA, Rodrigo Alves de
dc.contributor.advisor1.fl_str_mv AMARAL, Getúlio José Amorim do
dc.contributor.advisor-co1.fl_str_mv SOUZA, Renata Maria Cardoso Rodrigues de
contributor_str_mv AMARAL, Getúlio José Amorim do
SOUZA, Renata Maria Cardoso Rodrigues de
dc.subject.por.fl_str_mv Análise multivariada
Estatística aplicada
Análise de agrupamento
topic Análise multivariada
Estatística aplicada
Análise de agrupamento
description Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-07-11T16:55:56Z
dc.date.available.fl_str_mv 2016-07-11T16:55:56Z
dc.date.issued.fl_str_mv 2016-02-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/17314
url https://repositorio.ufpe.br/handle/123456789/17314
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Estatistica
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/17314/5/Rodrigo_CD.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/17314/1/Rodrigo_CD.pdf
https://repositorio.ufpe.br/bitstream/123456789/17314/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/17314/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/17314/4/Rodrigo_CD.pdf.txt
bitstream.checksum.fl_str_mv 02b08950471507a0a7af1c51c3c4e7d2
1848fe54bf3979180fcfc4966a04b492
66e71c371cc565284e70f40736c94386
4b8a02c7f2818eaf00dcf2260dd5eb08
1c667d35f96cd8396149eded9c177d76
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310631893762048