Categorização de dados quantitativos para estudos de diversidade genética
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://locus.ufv.br/handle/123456789/4037 |
Resumo: | The genetic diversity study is an important tool in the identification of genetically divergent individuals, wich, can increase the effect of heterosis in the progeny when combinaded. A statistical technique usually applied in this type of study is the cluster analysis. However, before applying this technique, it must be obtained a similarity matrix (or distance) between the genotypes. These distances can be calculated in several ways, which different proposals are found in the literature for quantitative variables, binary and multicategoric. The transformation of quantitative variables in multicategoric can be used to facilitate their characterization with preliminary useful information. There are quite a few methods to make such changes, but they need to be better understood so that the loss of information occurred in such changes does not damage significantly the results of the analysis. Therefore the purposes of this study are: to determine which of these variables categorization methods are efficient; to research the influence of the choice of different coefficients of dissimilarity in cluster analysis, made from simulated data by using quantitative variables and multicategoric; and to investigate whether some hierarchical methods group efficiently the simulated data. For that, there were made 50 simulations of ten quantitative variables to twenty genotypes of a species of reference as corn, each one with four replications. These data were converted in multicategoric using the following methods: equitable division of amplitude, equitable percentage, square rule, Sturges rule and normal distribution. A number of classes had to be established for the first two methods, which were used four and five classes for both. Were used to create distance matrices, in the original data and multicategoric, the dissimilarity measures: Euclidean distance, the average Euclidean, squared Euclidean distance, Mahalanobis distance and weighted distance. Subsequently, the grouping was done by the method of nearest neighbor and the average linkage between groups (UPGMA). The efficiency of these was verified by the statistics of efficiency cophenetic correlation coefficient, stress and distortion degree between the phenetic and cophenetic matrices. The results showed that the cluster method UPGMA was superior to method of nearest neighbor for all distance measures used. Euclidean distances and average Euclidean showed similar performance in all cluster analysis done. Moreover, these two measures got the best performance in all groups performed. All methods of data categorization achieved a satisfactory performance when grouped by UPGMA, except the method of equal percentage with four and five classes. However, the data which have their classes estimated by the square rule had the most similar dendrogram when compared to the obtained using the original data, and therefore, this is the recommended method to perform the categorization of data. |
id |
UFV_21c075918c5233c288ce3bae6bf7634b |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/4037 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Barroso, Natália Caixetahttp://lattes.cnpq.br/3693450916625203Silva, Fabyano Fonseca ehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2Cecon, Paulo Robertohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Cruz, Cosme Damiãohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6Peternelli, Luiz Alexandrehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7Carneiro, Pedro Crescêncio Souzahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728227T6Bhering, Leonardo Lopeshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4764363E62015-03-26T13:32:11Z2011-09-122015-03-26T13:32:11Z2010-12-15BARROSO, Natália Caixeta. Categorization quantitative data for studies of genetic diversity. 2010. 110 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2010.http://locus.ufv.br/handle/123456789/4037The genetic diversity study is an important tool in the identification of genetically divergent individuals, wich, can increase the effect of heterosis in the progeny when combinaded. A statistical technique usually applied in this type of study is the cluster analysis. However, before applying this technique, it must be obtained a similarity matrix (or distance) between the genotypes. These distances can be calculated in several ways, which different proposals are found in the literature for quantitative variables, binary and multicategoric. The transformation of quantitative variables in multicategoric can be used to facilitate their characterization with preliminary useful information. There are quite a few methods to make such changes, but they need to be better understood so that the loss of information occurred in such changes does not damage significantly the results of the analysis. Therefore the purposes of this study are: to determine which of these variables categorization methods are efficient; to research the influence of the choice of different coefficients of dissimilarity in cluster analysis, made from simulated data by using quantitative variables and multicategoric; and to investigate whether some hierarchical methods group efficiently the simulated data. For that, there were made 50 simulations of ten quantitative variables to twenty genotypes of a species of reference as corn, each one with four replications. These data were converted in multicategoric using the following methods: equitable division of amplitude, equitable percentage, square rule, Sturges rule and normal distribution. A number of classes had to be established for the first two methods, which were used four and five classes for both. Were used to create distance matrices, in the original data and multicategoric, the dissimilarity measures: Euclidean distance, the average Euclidean, squared Euclidean distance, Mahalanobis distance and weighted distance. Subsequently, the grouping was done by the method of nearest neighbor and the average linkage between groups (UPGMA). The efficiency of these was verified by the statistics of efficiency cophenetic correlation coefficient, stress and distortion degree between the phenetic and cophenetic matrices. The results showed that the cluster method UPGMA was superior to method of nearest neighbor for all distance measures used. Euclidean distances and average Euclidean showed similar performance in all cluster analysis done. Moreover, these two measures got the best performance in all groups performed. All methods of data categorization achieved a satisfactory performance when grouped by UPGMA, except the method of equal percentage with four and five classes. However, the data which have their classes estimated by the square rule had the most similar dendrogram when compared to the obtained using the original data, and therefore, this is the recommended method to perform the categorization of data.O estudo da divergência genética é uma ferramenta importante na identificação de indivíduos geneticamente divergentes que, ao serem combinados, possam aumentar o efeito heterótico na progênie. Uma técnica estatística muito aplicada nesse tipo de estudo é a análise de agrupamento. Entretanto, antes dessa técnica ser empregada, deve ser obtida uma matriz de similaridade (ou distância) entre os genótipos. Essas distâncias podem ser calculadas de diversas maneiras, sendo que diferentes propostas são encontradas na literatura para as variáveis quantitativas, binárias e multicategóricas. A transformação de variáveis quantitativas em multicategóricas pode ser utilizada para facilitar sua caracterização com informações preliminares de grande utilidade. Existem vários métodos para se fazer essa transformação, porém estes precisam ser melhor entendidos para que a perda de informações ocorrida na transformação não prejudique significativamente os resultados da análise. Portanto, este trabalho teve como objetivos: verificar quais desses métodos de categorização de variáveis são eficientes; pesquisar a influência da escolha de diferentes coeficientes de dissimilaridades na análise de agrupamentos, feita a partir de dados simulados utilizando variáveis quantitativas e multicategóricas; e averiguar se alguns métodos hierárquicos agrupam com eficiência os dados simulados. Para isto, foram feitas 50 simulações de dez variáveis quantitativas para vinte genótipos de uma espécie de referência como o milho, cada um com quatro repetições. Estes dados foram transformados em multicategóricos através dos métodos: divisão equitativa da amplitude, percentual equitativo, regra do Quadrado, regra de Sturges e distribuição normal. O número de classes tinha que ser estabelecido para os dois primeiros, no caso, foi utilizado quatro e cinco classes para ambos. Foram utilizadas para construir as matrizes de distâncias, nos dados originais e multicategóricos, as medidas de dissimilaridade: distância euclidiana, euclidiana média, quadrado da distância euclidiana, distância de Mahalanobis e distância ponderada. Posteriormente, o agrupamento foi feito pelo método do vizinho mais próximo e pela ligação média entre grupos (UPGMA). A eficiência destes foi verificada através das estatísticas de eficiência coeficiente de correlação cofenética, estresse e grau de distorção entre as matrizes fenéticas e cofenéticas. Os resultados mostraram que o método de agrupamento UPGMA foi superior ao método do vizinho mais próximo para todas as medidas de distância utilizadas. As distâncias euclidiana e euclidiana média apresentaram a mesma performance em todas as análises de agrupamento feitas. Além disso, essas duas medidas obtiveram os melhores desempenhos em todos os agrupamentos realizados. Todos os métodos de categorização de dados conseguiram um desempenho satisfatório quando agrupados por UPGMA, exceto o método do percentual equitativo com quatro e cinco classes. Contudo, os dados que possuem suas classes estimadas pela regra do Quadrado apresentaram o dendrograma mais semelhante com o obtido pormeio dos dados originais, sendo este, então, o método mais recomendado para se fazer a categorização de dados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Estatística Aplicada e BiometriaUFVBREstatística Aplicada e BiometriaCategorizaçãoDiversidade genéticaMedidas de dissimilaridadeAnálise de agrupamentoCategorizationGenetic diversityDissimilarity measuresCluster analysisCNPQ::CIENCIAS AGRARIASCategorização de dados quantitativos para estudos de diversidade genéticaCategorization quantitative data for studies of genetic diversityinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf2217621https://locus.ufv.br//bitstream/123456789/4037/1/texto%20completo.pdf73d2ddc4b72290d7ed609d146e107cafMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain165715https://locus.ufv.br//bitstream/123456789/4037/2/texto%20completo.pdf.txt0072575f92d1595685c7660b92608000MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3538https://locus.ufv.br//bitstream/123456789/4037/3/texto%20completo.pdf.jpga7f608b3ac20802f61199fd9d98f22a0MD53123456789/40372016-04-09 23:17:52.135oai:locus.ufv.br:123456789/4037Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:52LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.por.fl_str_mv |
Categorização de dados quantitativos para estudos de diversidade genética |
dc.title.alternative.eng.fl_str_mv |
Categorization quantitative data for studies of genetic diversity |
title |
Categorização de dados quantitativos para estudos de diversidade genética |
spellingShingle |
Categorização de dados quantitativos para estudos de diversidade genética Barroso, Natália Caixeta Categorização Diversidade genética Medidas de dissimilaridade Análise de agrupamento Categorization Genetic diversity Dissimilarity measures Cluster analysis CNPQ::CIENCIAS AGRARIAS |
title_short |
Categorização de dados quantitativos para estudos de diversidade genética |
title_full |
Categorização de dados quantitativos para estudos de diversidade genética |
title_fullStr |
Categorização de dados quantitativos para estudos de diversidade genética |
title_full_unstemmed |
Categorização de dados quantitativos para estudos de diversidade genética |
title_sort |
Categorização de dados quantitativos para estudos de diversidade genética |
author |
Barroso, Natália Caixeta |
author_facet |
Barroso, Natália Caixeta |
author_role |
author |
dc.contributor.authorLattes.por.fl_str_mv |
http://lattes.cnpq.br/3693450916625203 |
dc.contributor.author.fl_str_mv |
Barroso, Natália Caixeta |
dc.contributor.advisor-co1.fl_str_mv |
Silva, Fabyano Fonseca e |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2 |
dc.contributor.advisor-co2.fl_str_mv |
Cecon, Paulo Roberto |
dc.contributor.advisor-co2Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5 |
dc.contributor.advisor1.fl_str_mv |
Cruz, Cosme Damião |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6 |
dc.contributor.referee1.fl_str_mv |
Peternelli, Luiz Alexandre |
dc.contributor.referee1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7 |
dc.contributor.referee2.fl_str_mv |
Carneiro, Pedro Crescêncio Souza |
dc.contributor.referee2Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728227T6 |
dc.contributor.referee3.fl_str_mv |
Bhering, Leonardo Lopes |
dc.contributor.referee3Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4764363E6 |
contributor_str_mv |
Silva, Fabyano Fonseca e Cecon, Paulo Roberto Cruz, Cosme Damião Peternelli, Luiz Alexandre Carneiro, Pedro Crescêncio Souza Bhering, Leonardo Lopes |
dc.subject.por.fl_str_mv |
Categorização Diversidade genética Medidas de dissimilaridade Análise de agrupamento |
topic |
Categorização Diversidade genética Medidas de dissimilaridade Análise de agrupamento Categorization Genetic diversity Dissimilarity measures Cluster analysis CNPQ::CIENCIAS AGRARIAS |
dc.subject.eng.fl_str_mv |
Categorization Genetic diversity Dissimilarity measures Cluster analysis |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS AGRARIAS |
description |
The genetic diversity study is an important tool in the identification of genetically divergent individuals, wich, can increase the effect of heterosis in the progeny when combinaded. A statistical technique usually applied in this type of study is the cluster analysis. However, before applying this technique, it must be obtained a similarity matrix (or distance) between the genotypes. These distances can be calculated in several ways, which different proposals are found in the literature for quantitative variables, binary and multicategoric. The transformation of quantitative variables in multicategoric can be used to facilitate their characterization with preliminary useful information. There are quite a few methods to make such changes, but they need to be better understood so that the loss of information occurred in such changes does not damage significantly the results of the analysis. Therefore the purposes of this study are: to determine which of these variables categorization methods are efficient; to research the influence of the choice of different coefficients of dissimilarity in cluster analysis, made from simulated data by using quantitative variables and multicategoric; and to investigate whether some hierarchical methods group efficiently the simulated data. For that, there were made 50 simulations of ten quantitative variables to twenty genotypes of a species of reference as corn, each one with four replications. These data were converted in multicategoric using the following methods: equitable division of amplitude, equitable percentage, square rule, Sturges rule and normal distribution. A number of classes had to be established for the first two methods, which were used four and five classes for both. Were used to create distance matrices, in the original data and multicategoric, the dissimilarity measures: Euclidean distance, the average Euclidean, squared Euclidean distance, Mahalanobis distance and weighted distance. Subsequently, the grouping was done by the method of nearest neighbor and the average linkage between groups (UPGMA). The efficiency of these was verified by the statistics of efficiency cophenetic correlation coefficient, stress and distortion degree between the phenetic and cophenetic matrices. The results showed that the cluster method UPGMA was superior to method of nearest neighbor for all distance measures used. Euclidean distances and average Euclidean showed similar performance in all cluster analysis done. Moreover, these two measures got the best performance in all groups performed. All methods of data categorization achieved a satisfactory performance when grouped by UPGMA, except the method of equal percentage with four and five classes. However, the data which have their classes estimated by the square rule had the most similar dendrogram when compared to the obtained using the original data, and therefore, this is the recommended method to perform the categorization of data. |
publishDate |
2010 |
dc.date.issued.fl_str_mv |
2010-12-15 |
dc.date.available.fl_str_mv |
2011-09-12 2015-03-26T13:32:11Z |
dc.date.accessioned.fl_str_mv |
2015-03-26T13:32:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BARROSO, Natália Caixeta. Categorization quantitative data for studies of genetic diversity. 2010. 110 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2010. |
dc.identifier.uri.fl_str_mv |
http://locus.ufv.br/handle/123456789/4037 |
identifier_str_mv |
BARROSO, Natália Caixeta. Categorization quantitative data for studies of genetic diversity. 2010. 110 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2010. |
url |
http://locus.ufv.br/handle/123456789/4037 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Mestrado em Estatística Aplicada e Biometria |
dc.publisher.initials.fl_str_mv |
UFV |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Estatística Aplicada e Biometria |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/4037/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/4037/2/texto%20completo.pdf.txt https://locus.ufv.br//bitstream/123456789/4037/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
73d2ddc4b72290d7ed609d146e107caf 0072575f92d1595685c7660b92608000 a7f608b3ac20802f61199fd9d98f22a0 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212840252538880 |