Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar

Detalhes bibliográficos
Autor(a) principal: Moreira, Édimo Fernando Alves
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: http://www.locus.ufv.br/handle/123456789/19214
Resumo: Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
id UFV_298bd666f1001ab03bf4dfd836f66bdb
oai_identifier_str oai:locus.ufv.br:123456789/19214
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Moreira, Édimo Fernando Alveshttp://lattes.cnpq.br/0290811195300476Peternelli, Luiz Alexandre2018-04-27T13:16:35Z2018-04-27T13:16:35Z2017-10-03MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.http://www.locus.ufv.br/handle/123456789/19214Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simplesOne of the great difficulties of breeding programs is the selection of genotypes in the early stages. The use of statistical methods for the prediction based on information taken at the field level can contribute to increase the probability of identifying potentially superior genotypes. The objective of this study is to compare the classification techniques, logistic regression (LR), linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), K-nearest neighboor (KNN), single-layer neural network (ANN), decision trees (DT) with random forests and support vector machines (SVM) as alternatives for selection of sugarcane families. The data used in this study were from five experiments with 22 families each, in randomized block design with 5 repetitions. In these experiments were collected production traits, number of stalks (NS), stalk diameter (SD) and the stalk height (SH) and the real production, expressed in tons of cane per hectare (TCHr). For training of methods were used as explanatory variables the indirect production traits, NS, SD and SH. The output variable used in training was the indicator, Y = 0 , if the family was not selected by real ton cane per hectare, and Y = 1 , if the family has been selected. Prior to obtaining the classification rules, the values of NS, SD and SH were standardized for mean 0 e variance 1. Moreover, aiming at greater efficiency in training of models were produced synthetic data based on simulation values of NS, SD, SH and TCHr for 1,000 families. The simulation was done using the structure of phenotypic mean and covariance of each ith experiment. The analyzes were performed in five different scenarios according to the experiment used for simulation and training data. In addition to the different scenarios they were considered two models, full, with all the explanatory variables and reduced, which was excluded from the variable SH. All the techniques of statistical learning feature high agreement with the selection via TCHr (AER mean < 0.14), in both models, full and reduced. For the full model, the best performance, lower AER mean (AER=0.0886) and higher TPR mean (0.9831), was observed in the classifier SVM. In the reduced model, the ANN (AER mean=0.0932; TPR mean=0.9210), the SVM (AER mean=0.0977; TPR mean=0.9417) and the k-nearest neighboor (AER=0.1000, TPR=0.9167) how the best results. The reduced model may be preferred because it presents similar results to the complete model and has the advantage of being operationally simpler.porUniversidade Federal de ViçosaAmostragem (Estatística)Cana-de-açúcar - Melhoramento genéticoCana-de-açúcar - SeleçãoCana-de-açúcar - ClassificaçãoEstatísticaTécnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcarTechniques of statistical learning applied the selecting among families of sugarcaneinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de EstatísticaDoutor em Estatística Aplicada e BiometriaViçosa - MG2017-10-03Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf811046https://locus.ufv.br//bitstream/123456789/19214/1/texto%20completo.pdf164f565159d1396d2885fdace611d37aMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/19214/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3558https://locus.ufv.br//bitstream/123456789/19214/3/texto%20completo.pdf.jpgd80e2ac8bcf54573c29c129f253836f6MD53123456789/192142018-04-27 23:00:30.36oai:locus.ufv.br:123456789/19214Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452018-04-28T02:00:30LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
dc.title.en.fl_str_mv Techniques of statistical learning applied the selecting among families of sugarcane
title Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
spellingShingle Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
Moreira, Édimo Fernando Alves
Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
Estatística
title_short Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_fullStr Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full_unstemmed Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_sort Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
author Moreira, Édimo Fernando Alves
author_facet Moreira, Édimo Fernando Alves
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/0290811195300476
dc.contributor.author.fl_str_mv Moreira, Édimo Fernando Alves
dc.contributor.advisor1.fl_str_mv Peternelli, Luiz Alexandre
contributor_str_mv Peternelli, Luiz Alexandre
dc.subject.pt-BR.fl_str_mv Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
topic Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
Estatística
dc.subject.cnpq.fl_str_mv Estatística
description Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
publishDate 2017
dc.date.issued.fl_str_mv 2017-10-03
dc.date.accessioned.fl_str_mv 2018-04-27T13:16:35Z
dc.date.available.fl_str_mv 2018-04-27T13:16:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.
dc.identifier.uri.fl_str_mv http://www.locus.ufv.br/handle/123456789/19214
identifier_str_mv MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.
url http://www.locus.ufv.br/handle/123456789/19214
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/19214/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/19214/2/license.txt
https://locus.ufv.br//bitstream/123456789/19214/3/texto%20completo.pdf.jpg
bitstream.checksum.fl_str_mv 164f565159d1396d2885fdace611d37a
8a4605be74aa9ea9d79846c1fba20a33
d80e2ac8bcf54573c29c129f253836f6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801212870694797312