Avaliação do lasso e métodos alternativos em modelos de regressão logística

Detalhes bibliográficos
Autor(a) principal: Alcântara Junior, Gilberto Pereira de
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/14052
Resumo: Logistic regression has always been an important tool not only in the area of statistics, but also in several other areas such as economic, biological and medical. In many of these areas it is common to encounter problems of high dimensionality, in which the number of covariates to be tested is greater than the sample size. Classic estimation methods present certain problems in high dimensionality. One of the ways to solve this problem is the estimation by methods of penalty, as the lasso proposed by Tibshirani (1996). Despite the many works done on the application of lasso in the logistic regression model, none of them presents a complete study of simulation of the method's prediction performance using some traditional measure of performance evaluation. There are also no studies in the literature that compare the performance of other possible combinations made from lasso, such as lasso to select covariates and estimation via maximum likelihood, or selection via stepwise and estimation via lasso. In this work an extensive simulation study is presented under several scenarios created in order to study and compare the performance of the lasso and 3 other techniques combined in the logistic regression model. Several examples of applications in which the logistic model can be used were also studied and analyzed. Through the results obtained both by the simulations and by the applications, in relation to the predictive power, it was possible to verify that the lasso stood out or had similar performance to the other methods in all the presented scenarios. Regarding the comparison of the adjusted model with the real one, none of the methods considered stands out in all scenarios and in relation to all aspects analyzed.
id SCAR_63d6b9103673cc0bdf1465c15b72978e
oai_identifier_str oai:repositorio.ufscar.br:ufscar/14052
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Alcântara Junior, Gilberto Pereira dePereira, Gustavo Henrique de Araujohttp://lattes.cnpq.br/4536501674241631http://lattes.cnpq.br/15982819797514537310d8e4-e983-42cc-ae8d-855711dd50372021-03-30T16:19:11Z2021-03-30T16:19:11Z2021-03-11ALCÂNTARA JUNIOR, Gilberto Pereira de. Avaliação do lasso e métodos alternativos em modelos de regressão logística. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14052.https://repositorio.ufscar.br/handle/ufscar/14052Logistic regression has always been an important tool not only in the area of statistics, but also in several other areas such as economic, biological and medical. In many of these areas it is common to encounter problems of high dimensionality, in which the number of covariates to be tested is greater than the sample size. Classic estimation methods present certain problems in high dimensionality. One of the ways to solve this problem is the estimation by methods of penalty, as the lasso proposed by Tibshirani (1996). Despite the many works done on the application of lasso in the logistic regression model, none of them presents a complete study of simulation of the method's prediction performance using some traditional measure of performance evaluation. There are also no studies in the literature that compare the performance of other possible combinations made from lasso, such as lasso to select covariates and estimation via maximum likelihood, or selection via stepwise and estimation via lasso. In this work an extensive simulation study is presented under several scenarios created in order to study and compare the performance of the lasso and 3 other techniques combined in the logistic regression model. Several examples of applications in which the logistic model can be used were also studied and analyzed. Through the results obtained both by the simulations and by the applications, in relation to the predictive power, it was possible to verify that the lasso stood out or had similar performance to the other methods in all the presented scenarios. Regarding the comparison of the adjusted model with the real one, none of the methods considered stands out in all scenarios and in relation to all aspects analyzed.A regressão logística sempre foi uma importante ferramenta não só na área de estatística, mas também em diversas outras áreas como econômica, biológica e médica. Em muitas dessas áreas é comum se deparar com problemas de alta dimensionalidade, no qual o número de cováriaveis a serem testadas é maior do que o tamanho amostral. Métodos clássicos de estimação apresentam certos problemas em alta dimensionalidade. Uma das formas de solucionar esse problema é a estimação por métodos de penalização, como o lasso proposto por Tibshirani (1996). Apesar dos muitos trabalhos feitos da aplicação do lasso no modelo de regressão logística, nenhum apresenta um estudo completo de simulação do desempenho de predição do método utilizando alguma medida tradicional de avaliação de performance. Também não há na literatura trabalhos que comparam o desempenho de outras possíveis combinações feitas a partir do lasso, como por exemplo, o lasso para selecionar covariáveis e a estimação via máxima verossimilhança, ou a seleção via stepwise e a estimação via lasso. Neste trabalho é apresentado um extenso estudo de simulação sob diversos cenários criados com o objetivo de estudar e comparar o desempenho do lasso e outras 3 técnicas combinadas no modelo de regressão logística. Também foram estudados e analisados vários exemplos de aplicações em que o modelo logístico pode ser usado. Através dos resultados obtidos tanto pelas simulações quanto pelas aplicações, em relação ao poder preditivo, foi possível constatar que o lasso se sobressaía ou tinha desempenho similar aos outros métodos em todos os cenários apresentados. Em relação à comparação do modelo ajustado com o verdadeiro, nenhum dentre os métodos considerados se destaca em todos os cenários e em relação a todos os aspectos analisados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessEstimador de máxima verossimilhançaLassoRegressão LogísticaSeleção de variáveisLogistic regressionMaximum likelihood estimatorSelection of variablesStepwiseCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOAvaliação do lasso e métodos alternativos em modelos de regressão logísticaLasso evaluation and alternative methods in logistic regression modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c46df921-489b-4fcd-b981-2bd7f0512e1areponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertação.pdfdissertação.pdfDissertaçãoapplication/pdf696052https://repositorio.ufscar.br/bitstream/ufscar/14052/1/disserta%c3%a7%c3%a3o.pdfe8d1615005501a3a693ca269d07d3c99MD51carta Gustavo.pdfcarta Gustavo.pdfCarta Comprovanteapplication/pdf130525https://repositorio.ufscar.br/bitstream/ufscar/14052/4/carta%20Gustavo.pdf45ed5b72b362aa5014a0c60f9e79e64dMD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14052/5/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD55TEXTdissertação.pdf.txtdissertação.pdf.txtExtracted texttext/plain233013https://repositorio.ufscar.br/bitstream/ufscar/14052/6/disserta%c3%a7%c3%a3o.pdf.txt8bdba311283cff0dbb11936825b111a1MD56carta Gustavo.pdf.txtcarta Gustavo.pdf.txtExtracted texttext/plain1https://repositorio.ufscar.br/bitstream/ufscar/14052/8/carta%20Gustavo.pdf.txt68b329da9893e34099c7d8ad5cb9c940MD58THUMBNAILdissertação.pdf.jpgdissertação.pdf.jpgIM Thumbnailimage/jpeg7843https://repositorio.ufscar.br/bitstream/ufscar/14052/7/disserta%c3%a7%c3%a3o.pdf.jpg313fc23d016183685c619177ba5f1fb0MD57carta Gustavo.pdf.jpgcarta Gustavo.pdf.jpgIM Thumbnailimage/jpeg16288https://repositorio.ufscar.br/bitstream/ufscar/14052/9/carta%20Gustavo.pdf.jpg71c605482d4beada6e36f75a04619d4dMD59ufscar/140522023-09-18 18:32:08.687oai:repositorio.ufscar.br:ufscar/14052Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Avaliação do lasso e métodos alternativos em modelos de regressão logística
dc.title.alternative.eng.fl_str_mv Lasso evaluation and alternative methods in logistic regression models
title Avaliação do lasso e métodos alternativos em modelos de regressão logística
spellingShingle Avaliação do lasso e métodos alternativos em modelos de regressão logística
Alcântara Junior, Gilberto Pereira de
Estimador de máxima verossimilhança
Lasso
Regressão Logística
Seleção de variáveis
Logistic regression
Maximum likelihood estimator
Selection of variables
Stepwise
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
title_short Avaliação do lasso e métodos alternativos em modelos de regressão logística
title_full Avaliação do lasso e métodos alternativos em modelos de regressão logística
title_fullStr Avaliação do lasso e métodos alternativos em modelos de regressão logística
title_full_unstemmed Avaliação do lasso e métodos alternativos em modelos de regressão logística
title_sort Avaliação do lasso e métodos alternativos em modelos de regressão logística
author Alcântara Junior, Gilberto Pereira de
author_facet Alcântara Junior, Gilberto Pereira de
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1598281979751453
dc.contributor.author.fl_str_mv Alcântara Junior, Gilberto Pereira de
dc.contributor.advisor1.fl_str_mv Pereira, Gustavo Henrique de Araujo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4536501674241631
dc.contributor.authorID.fl_str_mv 7310d8e4-e983-42cc-ae8d-855711dd5037
contributor_str_mv Pereira, Gustavo Henrique de Araujo
dc.subject.por.fl_str_mv Estimador de máxima verossimilhança
Lasso
Regressão Logística
Seleção de variáveis
topic Estimador de máxima verossimilhança
Lasso
Regressão Logística
Seleção de variáveis
Logistic regression
Maximum likelihood estimator
Selection of variables
Stepwise
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
dc.subject.eng.fl_str_mv Logistic regression
Maximum likelihood estimator
Selection of variables
Stepwise
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
description Logistic regression has always been an important tool not only in the area of statistics, but also in several other areas such as economic, biological and medical. In many of these areas it is common to encounter problems of high dimensionality, in which the number of covariates to be tested is greater than the sample size. Classic estimation methods present certain problems in high dimensionality. One of the ways to solve this problem is the estimation by methods of penalty, as the lasso proposed by Tibshirani (1996). Despite the many works done on the application of lasso in the logistic regression model, none of them presents a complete study of simulation of the method's prediction performance using some traditional measure of performance evaluation. There are also no studies in the literature that compare the performance of other possible combinations made from lasso, such as lasso to select covariates and estimation via maximum likelihood, or selection via stepwise and estimation via lasso. In this work an extensive simulation study is presented under several scenarios created in order to study and compare the performance of the lasso and 3 other techniques combined in the logistic regression model. Several examples of applications in which the logistic model can be used were also studied and analyzed. Through the results obtained both by the simulations and by the applications, in relation to the predictive power, it was possible to verify that the lasso stood out or had similar performance to the other methods in all the presented scenarios. Regarding the comparison of the adjusted model with the real one, none of the methods considered stands out in all scenarios and in relation to all aspects analyzed.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-03-30T16:19:11Z
dc.date.available.fl_str_mv 2021-03-30T16:19:11Z
dc.date.issued.fl_str_mv 2021-03-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ALCÂNTARA JUNIOR, Gilberto Pereira de. Avaliação do lasso e métodos alternativos em modelos de regressão logística. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14052.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/14052
identifier_str_mv ALCÂNTARA JUNIOR, Gilberto Pereira de. Avaliação do lasso e métodos alternativos em modelos de regressão logística. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14052.
url https://repositorio.ufscar.br/handle/ufscar/14052
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c46df921-489b-4fcd-b981-2bd7f0512e1a
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/14052/1/disserta%c3%a7%c3%a3o.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14052/4/carta%20Gustavo.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14052/5/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/14052/6/disserta%c3%a7%c3%a3o.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14052/8/carta%20Gustavo.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14052/7/disserta%c3%a7%c3%a3o.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/14052/9/carta%20Gustavo.pdf.jpg
bitstream.checksum.fl_str_mv e8d1615005501a3a693ca269d07d3c99
45ed5b72b362aa5014a0c60f9e79e64d
e39d27027a6cc9cb039ad269a5db8e34
8bdba311283cff0dbb11936825b111a1
68b329da9893e34099c7d8ad5cb9c940
313fc23d016183685c619177ba5f1fb0
71c605482d4beada6e36f75a04619d4d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715628402409472