Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://locus.ufv.br/handle/123456789/4051 |
Resumo: | Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups. |
id |
UFV_30ac93c35e1cf651aa8e592af5fdb21d |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/4051 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Alves, Suelem Cristinahttp://lattes.cnpq.br/4007546105759852Martins Filho, Sebastiãohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5Cruz, Cosme Damiãohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6Peternelli, Luiz Alexandrehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7Nascimento, Moyséshttp://lattes.cnpq.br/6544887498494945Espeschit, Claudio José Borela2015-03-26T13:32:15Z2012-09-122015-03-26T13:32:15Z2012-02-02ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012.http://locus.ufv.br/handle/123456789/4051Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups.Estudos envolvendo análise de agrupamento hierárquico encontram um problema na hora de determinar o número ótimo de grupos, devido à falta de critérios objetivos. Pesquisas que envolvem o ajuste de modelos não-lineares a dados de crescimento ou de sobrevivência, cujo interesse principal é saber quantas curvas são necessárias para descrever o comportamento dos indivíduos analisados, utilizam dessa técnica. Como forma de auxiliar essa decisão, alguns pesquisadores recorrem aos índices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) e ao método de Mojena. Entretanto, não se sabe qual deles é a melhor escolha para determinação desse valor. A comparação dessas estatísticas foi o objetivo desse trabalho. Toda a metodologia utilizou o método de Ward para fazer o agrupamento das observações, o modelo de von Bertalanffy para o ajuste das curvas, e uma função própria, baseada na lei dos cossenos e na ideia do Método da Máxima Curvatura Modificado, para calcular o número de grupos indicado pelos índices. No capítulo 1 foi feito o estudo de caso real. O conjunto de dados possuía sete curvas de crescimento animal, que formavam três grupos. Após o agrupamento das estimativas dos parâmetros e o cálculo das estatísticas, foi constatado que apenas o índice SPRSQ apontou o número de grupos correto. Usando uma função que re-escalona o eixo dos índices de acordo com o eixo do número de grupos, para melhorar os resultados obtidos, apenas o RMSSTD não indicou o valor esperado. O capítulo 2 descreve o uso da simulação para descobrir qual das estatísticas citadas possuía maior porcentagem de acerto quanto à determinação do número ótimo de grupos em dois cenários. No primeiro, as observações provinham de uma única curva geradora e no outro, os indivíduos pertenciam a três populações diferentes. Para o caso de uma única curva, o índice RS foi o que apontou o número ótimo de grupos na maioria dos casos. Para o cenário onde se possuía três populações diferentes, o método de Mojena foi o que acertou o número de grupos mais vezes. Nesses cenários, o uso da função que re-escalona os eixos não mostrou eficiência para melhorar a porcentagem de acertos dos índices. De modo geral, os índices RS e SPRSQ mostraram-se os mais indicados para auxiliar na determinação do número ótimo de grupos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Estatística Aplicada e BiometriaUFVBREstatística Aplicada e BiometriaSimulaçãoCurvas de crescimentoModelo de von BertalanffyMétodo de MojenaSimulationGrowth curvesVon Bertalanffy modelMojena methodCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAComparação de métodos para definição do número ótimo de grupos em análise de agrupamentoComparison of methods for defining the optimal number of groups in cluster analysisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf834675https://locus.ufv.br//bitstream/123456789/4051/1/texto%20completo.pdfcbd61abff31c731b6961bd0ef022cffaMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain112332https://locus.ufv.br//bitstream/123456789/4051/2/texto%20completo.pdf.txtafad2dab9715fad2792b9b8155defa34MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3711https://locus.ufv.br//bitstream/123456789/4051/3/texto%20completo.pdf.jpg0db9b34c4a9c9c2736e9d8314375e58eMD53123456789/40512016-04-09 23:17:53.323oai:locus.ufv.br:123456789/4051Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:53LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.por.fl_str_mv |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
dc.title.alternative.eng.fl_str_mv |
Comparison of methods for defining the optimal number of groups in cluster analysis |
title |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
spellingShingle |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento Alves, Suelem Cristina Simulação Curvas de crescimento Modelo de von Bertalanffy Método de Mojena Simulation Growth curves Von Bertalanffy model Mojena method CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
title_short |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
title_full |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
title_fullStr |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
title_full_unstemmed |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
title_sort |
Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento |
author |
Alves, Suelem Cristina |
author_facet |
Alves, Suelem Cristina |
author_role |
author |
dc.contributor.authorLattes.por.fl_str_mv |
http://lattes.cnpq.br/4007546105759852 |
dc.contributor.author.fl_str_mv |
Alves, Suelem Cristina |
dc.contributor.advisor-co1.fl_str_mv |
Martins Filho, Sebastião |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5 |
dc.contributor.advisor-co2.fl_str_mv |
Cruz, Cosme Damião |
dc.contributor.advisor-co2Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6 |
dc.contributor.advisor1.fl_str_mv |
Peternelli, Luiz Alexandre |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7 |
dc.contributor.referee1.fl_str_mv |
Nascimento, Moysés |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/6544887498494945 |
dc.contributor.referee2.fl_str_mv |
Espeschit, Claudio José Borela |
contributor_str_mv |
Martins Filho, Sebastião Cruz, Cosme Damião Peternelli, Luiz Alexandre Nascimento, Moysés Espeschit, Claudio José Borela |
dc.subject.por.fl_str_mv |
Simulação Curvas de crescimento Modelo de von Bertalanffy Método de Mojena |
topic |
Simulação Curvas de crescimento Modelo de von Bertalanffy Método de Mojena Simulation Growth curves Von Bertalanffy model Mojena method CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
dc.subject.eng.fl_str_mv |
Simulation Growth curves Von Bertalanffy model Mojena method |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
description |
Studies that use hierarchical cluster analysis have a problem in determining the optimal number of groups due to lack of objective criteria. Researches involving the adjustment of nonlinear models to data on growth or survival, in which the main interest is to determine how many curves are needed to describe the behavior of the individuals analyzed, use this technique. Some researchers use indices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) and Mojena method, as a means of assistance in this decision. However, it is not known which one is the best choice to determine that value. The comparison of these statistics was the aim of this study. The entire methodology used the Ward s method to cluster the observations, the von Bertalanffy model to fit the curves, and a specific function, based on the law of cosines and the idea of the Modified Maximum Curvature Method, to calculate the number of groups indicated by the indices. In chapter 1, a real case study was developed. The data set had seven animal growth curves, forming three groups. After grouping the parameter estimates and the calculation of statistics, it was found that only the index SPRSQ pointed to the correct number of groups. Using a function to re-scale the axis of the indices according to the axis of the number of groups, to improve the results obtained, only RMSSTD did not indicate the expected value. Chapter 2 describes the use of simulation to find out which of the statistics mentioned had the highest percentage of accuracy in determining the optimal number of groups in two cases. In the first one, the observations came from a single generator curve and, in the other, the individuals belonged to three different populations. In the case of a single curve, the RS index pointed to the optimal number of groups in most cases. For the case in which there were three different populations, the Mojena method was the one that indicated the right number of groups more often. In these cases, the use of the function that re-scales the axes did not show efficiency to improve the percentage of correct indices. In general, the indices RS and SPRSQ were the most appropriate to assist in determining the optimal number of groups. |
publishDate |
2012 |
dc.date.available.fl_str_mv |
2012-09-12 2015-03-26T13:32:15Z |
dc.date.issued.fl_str_mv |
2012-02-02 |
dc.date.accessioned.fl_str_mv |
2015-03-26T13:32:15Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012. |
dc.identifier.uri.fl_str_mv |
http://locus.ufv.br/handle/123456789/4051 |
identifier_str_mv |
ALVES, Suelem Cristina. Comparison of methods for defining the optimal number of groups in cluster analysis. 2012. 74 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2012. |
url |
http://locus.ufv.br/handle/123456789/4051 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Mestrado em Estatística Aplicada e Biometria |
dc.publisher.initials.fl_str_mv |
UFV |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Estatística Aplicada e Biometria |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/4051/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/4051/2/texto%20completo.pdf.txt https://locus.ufv.br//bitstream/123456789/4051/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
cbd61abff31c731b6961bd0ef022cffa afad2dab9715fad2792b9b8155defa34 0db9b34c4a9c9c2736e9d8314375e58e |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212912008691712 |