Curva ROC para comparação de modelos de predição para variáveis dicotômicas

Detalhes bibliográficos
Autor(a) principal: Silva Neto, Zeferino Gomes da
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/28623
Resumo: A utilização de modelos de regressão logística e de seleção genômica ampla (GWS) tem elevada importância em ciências agrárias e, portanto, há necessidade de aplicação de metodologias eficientes para a avaliação do poder discriminatório destes modelos. Uma metodologia pouco difundida nesta área e em GWS é a Receiver Operating Characteristic, ou curva ROC. Neste trabalho, objetivou-se aplicar curva ROC para a seleção de modelos de regressão logística aplicados a dados de germinação de sementes de pimentas habanero e à GWS, considerando dados de resistência do arroz Oriza sativa à brusone. Os modelos testados para a predição da capacidade germinativa das sementes foram compostos dos fatores: variedade (laranja e vermelha), período de armazenamento do fruto (0, 7 e 14 dias), método de extração das sementes (manual e mecânico) e período de armazenamento das sementes (3, 6, 9 e 12 meses). O modelo que se mostrou mais adequado conteve a interação entre variedade, armazenamento do fruto e armazenamento da semente. Por sua vez, os métodos utilizados na GWS, para avaliação da resistência à brusone, foram o BRR (Bayesian Ridge Regression), Bayes C e BLASSO. Esses métodos foram comparados pelos seguintes critérios: taxa de erro na validação, coeficiente de Spearman e viés com a área abaixo da curva ROC (AUC). Os valores de AUC para a seleção dos modelos mostraram-se equivalentes aos valores dos índices usuais, que indicaram os modelos BRR e Bayes C como os melhores. Além disso, a representação gráfica das curvas ROC se mostrou ainda mais vantajosa por permitir a determinação da sensibilidade dos modelos em diferentes valores de especificidade. Abaixo de 0,25 de 1-especificidade os modelos BRR e Bayes C foram mais sensíveis que o BLASSO, mas acima deste valor todos foram equivalentes. No entanto, o BRR apresentou menor tempo de execução (4h52min, 6h1min, 6h25min para o BRR, Bayes C e BLASSO, respectivamente). Por fim, pode-se verificar que a análise ROC se mostrou eficiente para a avaliação de modelos de regressão logística e de GWS e, portanto, os resultados aqui apresentados indicam que a curva ROC pode ser utilizada como uma excelente ferramenta para seleção de modelos em ciências agrárias. Palavras-chave: Regressão logística. Seleção Genômica Ampla. Germinação de sementes. Brusone do arroz. Pimenta habanero. Qualidade de ajuste de modelo.
id UFV_1faada00a65fa80eac7fa2415e286282
oai_identifier_str oai:locus.ufv.br:123456789/28623
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Silva Neto, Zeferino Gomes dahttp://lattes.cnpq.br/5738630579322084Martins Filho, Sebastião2022-02-04T14:10:59Z2022-02-04T14:10:59Z2020-02-28SILVA NETO, Zeferino Gomes da. Curva ROC para comparação de modelos de predição para variáveis dicotômicas. 2020. 69 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.https://locus.ufv.br//handle/123456789/28623A utilização de modelos de regressão logística e de seleção genômica ampla (GWS) tem elevada importância em ciências agrárias e, portanto, há necessidade de aplicação de metodologias eficientes para a avaliação do poder discriminatório destes modelos. Uma metodologia pouco difundida nesta área e em GWS é a Receiver Operating Characteristic, ou curva ROC. Neste trabalho, objetivou-se aplicar curva ROC para a seleção de modelos de regressão logística aplicados a dados de germinação de sementes de pimentas habanero e à GWS, considerando dados de resistência do arroz Oriza sativa à brusone. Os modelos testados para a predição da capacidade germinativa das sementes foram compostos dos fatores: variedade (laranja e vermelha), período de armazenamento do fruto (0, 7 e 14 dias), método de extração das sementes (manual e mecânico) e período de armazenamento das sementes (3, 6, 9 e 12 meses). O modelo que se mostrou mais adequado conteve a interação entre variedade, armazenamento do fruto e armazenamento da semente. Por sua vez, os métodos utilizados na GWS, para avaliação da resistência à brusone, foram o BRR (Bayesian Ridge Regression), Bayes C e BLASSO. Esses métodos foram comparados pelos seguintes critérios: taxa de erro na validação, coeficiente de Spearman e viés com a área abaixo da curva ROC (AUC). Os valores de AUC para a seleção dos modelos mostraram-se equivalentes aos valores dos índices usuais, que indicaram os modelos BRR e Bayes C como os melhores. Além disso, a representação gráfica das curvas ROC se mostrou ainda mais vantajosa por permitir a determinação da sensibilidade dos modelos em diferentes valores de especificidade. Abaixo de 0,25 de 1-especificidade os modelos BRR e Bayes C foram mais sensíveis que o BLASSO, mas acima deste valor todos foram equivalentes. No entanto, o BRR apresentou menor tempo de execução (4h52min, 6h1min, 6h25min para o BRR, Bayes C e BLASSO, respectivamente). Por fim, pode-se verificar que a análise ROC se mostrou eficiente para a avaliação de modelos de regressão logística e de GWS e, portanto, os resultados aqui apresentados indicam que a curva ROC pode ser utilizada como uma excelente ferramenta para seleção de modelos em ciências agrárias. Palavras-chave: Regressão logística. Seleção Genômica Ampla. Germinação de sementes. Brusone do arroz. Pimenta habanero. Qualidade de ajuste de modelo.The use of logistic regression models and genomics wide selection (GWS) is very important in agricultural sciences and, therefore, the application of efficient methodologies to assess the discriminatory power of these models is needed. A poorly-used methodology in this area and in GWS is the Receiver Operating Characteristic, or ROC curve. In this work, the aim was to apply a ROC curve for the selection of logistic regression models applied to germination data of habanero pepper seeds and to GWS, considering resistance data of rice Oriza sativa to blast. The tested models for the prediction of the germination capacity of the seeds were composed of the factors: variety (orange and red), period of storage of the fruit (0, 7 and 14 days), method of extraction of the seeds (manual and mechanical) and period of seed storage (3, 6, 9 and 12 months). The most suitable model contained the interaction between variety, fruit storage and seed storage. On the other hand, the methods used in GWS to assess blast resistance were BRR (Bayesian Ridge Regression), Bayes Cπ and BLASSO. These methods were compared using the following criteria: error rate in the validation, Spearman coefficient and bias with the area under the ROC curve (AUC). The AUC values for the selection of the models were equivalent to the values of the usual indices, which indicated the BRR and Bayes Cπ models as the best. In addition, the graphical representation of the ROC curves proved to be even more advantageous as it allows the determination of the sensitivity of the models in different specificity values. Below 0.25 of 1-specificity the BRR and Bayes Cπ models were more sensitive than the BLASSO, but above this value all the models were equivalent. However, the BRR had a faster execution (4h52min, 6h1min, and 6h25min for the BRR, Bayes Cπ and BLASSO, respectively). Finally, the ROC analysis proved to be efficient for the evaluation of logistic regression models and GWS and, therefore, the results presented here indicate that the ROC curve can be used as an excellent tool for selecting models in agrarian sciences. Keywords: Logistic regression. Genomics Wide Selection. Seed germination. Rice blast. Habanero pepper. Model fitting quality.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaAnálise de regressão logísticaMelhoramento genéticoGerminaçãoBrusoneCapsicum chinenseEstatísticaCurva ROC para comparação de modelos de predição para variáveis dicotômicasROC curve for comparing prediction models for dichotomous variablesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2020-02-28Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1227036https://locus.ufv.br//bitstream/123456789/28623/1/texto%20completo.pdf8593ec35093967a5104bfa86f5e19922MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28623/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/286232022-02-04 11:11:42.875oai:locus.ufv.br:123456789/28623Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-02-04T14:11:42LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Curva ROC para comparação de modelos de predição para variáveis dicotômicas
dc.title.en.fl_str_mv ROC curve for comparing prediction models for dichotomous variables
title Curva ROC para comparação de modelos de predição para variáveis dicotômicas
spellingShingle Curva ROC para comparação de modelos de predição para variáveis dicotômicas
Silva Neto, Zeferino Gomes da
Análise de regressão logística
Melhoramento genético
Germinação
Brusone
Capsicum chinense
Estatística
title_short Curva ROC para comparação de modelos de predição para variáveis dicotômicas
title_full Curva ROC para comparação de modelos de predição para variáveis dicotômicas
title_fullStr Curva ROC para comparação de modelos de predição para variáveis dicotômicas
title_full_unstemmed Curva ROC para comparação de modelos de predição para variáveis dicotômicas
title_sort Curva ROC para comparação de modelos de predição para variáveis dicotômicas
author Silva Neto, Zeferino Gomes da
author_facet Silva Neto, Zeferino Gomes da
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/5738630579322084
dc.contributor.author.fl_str_mv Silva Neto, Zeferino Gomes da
dc.contributor.advisor1.fl_str_mv Martins Filho, Sebastião
contributor_str_mv Martins Filho, Sebastião
dc.subject.pt-BR.fl_str_mv Análise de regressão logística
Melhoramento genético
Germinação
Brusone
Capsicum chinense
topic Análise de regressão logística
Melhoramento genético
Germinação
Brusone
Capsicum chinense
Estatística
dc.subject.cnpq.fl_str_mv Estatística
description A utilização de modelos de regressão logística e de seleção genômica ampla (GWS) tem elevada importância em ciências agrárias e, portanto, há necessidade de aplicação de metodologias eficientes para a avaliação do poder discriminatório destes modelos. Uma metodologia pouco difundida nesta área e em GWS é a Receiver Operating Characteristic, ou curva ROC. Neste trabalho, objetivou-se aplicar curva ROC para a seleção de modelos de regressão logística aplicados a dados de germinação de sementes de pimentas habanero e à GWS, considerando dados de resistência do arroz Oriza sativa à brusone. Os modelos testados para a predição da capacidade germinativa das sementes foram compostos dos fatores: variedade (laranja e vermelha), período de armazenamento do fruto (0, 7 e 14 dias), método de extração das sementes (manual e mecânico) e período de armazenamento das sementes (3, 6, 9 e 12 meses). O modelo que se mostrou mais adequado conteve a interação entre variedade, armazenamento do fruto e armazenamento da semente. Por sua vez, os métodos utilizados na GWS, para avaliação da resistência à brusone, foram o BRR (Bayesian Ridge Regression), Bayes C e BLASSO. Esses métodos foram comparados pelos seguintes critérios: taxa de erro na validação, coeficiente de Spearman e viés com a área abaixo da curva ROC (AUC). Os valores de AUC para a seleção dos modelos mostraram-se equivalentes aos valores dos índices usuais, que indicaram os modelos BRR e Bayes C como os melhores. Além disso, a representação gráfica das curvas ROC se mostrou ainda mais vantajosa por permitir a determinação da sensibilidade dos modelos em diferentes valores de especificidade. Abaixo de 0,25 de 1-especificidade os modelos BRR e Bayes C foram mais sensíveis que o BLASSO, mas acima deste valor todos foram equivalentes. No entanto, o BRR apresentou menor tempo de execução (4h52min, 6h1min, 6h25min para o BRR, Bayes C e BLASSO, respectivamente). Por fim, pode-se verificar que a análise ROC se mostrou eficiente para a avaliação de modelos de regressão logística e de GWS e, portanto, os resultados aqui apresentados indicam que a curva ROC pode ser utilizada como uma excelente ferramenta para seleção de modelos em ciências agrárias. Palavras-chave: Regressão logística. Seleção Genômica Ampla. Germinação de sementes. Brusone do arroz. Pimenta habanero. Qualidade de ajuste de modelo.
publishDate 2020
dc.date.issued.fl_str_mv 2020-02-28
dc.date.accessioned.fl_str_mv 2022-02-04T14:10:59Z
dc.date.available.fl_str_mv 2022-02-04T14:10:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA NETO, Zeferino Gomes da. Curva ROC para comparação de modelos de predição para variáveis dicotômicas. 2020. 69 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/28623
identifier_str_mv SILVA NETO, Zeferino Gomes da. Curva ROC para comparação de modelos de predição para variáveis dicotômicas. 2020. 69 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
url https://locus.ufv.br//handle/123456789/28623
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/28623/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/28623/2/license.txt
bitstream.checksum.fl_str_mv 8593ec35093967a5104bfa86f5e19922
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801212957709828096