Estimation of knots location and number in the splines regression models using an optimization approach

Detalhes bibliográficos
Autor(a) principal: Ferreira, Alberto Rodrigues
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-08082022-182210/
Resumo: In many practical problems related to supervised statistical learning, we are interested in predicting a continuous target. Frequently, the relationship between the explanatory variable and the target variable is nonlinear, so models that introduce nonlinearity for this purpose tend to obtain better performances in general. A statistical model that addresses this problem called the regression splines model has received considerable attention in recent years. This is due to its great predictive power and good fits incorporated by its flexibility. However, the splines regression model has a significant disadvantage: one of its main components, called knots, related to the change points, are usually chosen before the estimation process. They are considered pre-specified values, which in some situations can present severe problems in practical problems. In this work, we propose a new methodology that tries to solve this considering the knots location and knots number as parameters, and we solve this problem as an optimization approach using the nonlinear optimization algorithm BFGS. Furthermore, we introduce new regularization methods to penalize variables with irrelevant knots and avoid overfitting. The proposed methodology obtained many advantages compared to the approach used in the literature, such as automatic estimation of the number and location of knots, regularization methods that avoids overfitting, and selection of irrelevant knots. Our ap- proach obtained several gains in predictive performance and knots estimation in the simulations, thus obtaining better results than the usual procedure.
id USP_99f8960cd43f96d5991e9655a746a263
oai_identifier_str oai:teses.usp.br:tde-08082022-182210
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Estimation of knots location and number in the splines regression models using an optimization approachEstimação da localização e número dos knots do modelo de regressão splines usando uma abordagem de otimizaçãoBFGSBFGSEstimação da localização dos knotsEstimação do número de knotsKnots location estimationKnots number estimationMétodos de regularizaçãoModelo de regressão splinesRegularization methodsSplines regression modelIn many practical problems related to supervised statistical learning, we are interested in predicting a continuous target. Frequently, the relationship between the explanatory variable and the target variable is nonlinear, so models that introduce nonlinearity for this purpose tend to obtain better performances in general. A statistical model that addresses this problem called the regression splines model has received considerable attention in recent years. This is due to its great predictive power and good fits incorporated by its flexibility. However, the splines regression model has a significant disadvantage: one of its main components, called knots, related to the change points, are usually chosen before the estimation process. They are considered pre-specified values, which in some situations can present severe problems in practical problems. In this work, we propose a new methodology that tries to solve this considering the knots location and knots number as parameters, and we solve this problem as an optimization approach using the nonlinear optimization algorithm BFGS. Furthermore, we introduce new regularization methods to penalize variables with irrelevant knots and avoid overfitting. The proposed methodology obtained many advantages compared to the approach used in the literature, such as automatic estimation of the number and location of knots, regularization methods that avoids overfitting, and selection of irrelevant knots. Our ap- proach obtained several gains in predictive performance and knots estimation in the simulations, thus obtaining better results than the usual procedure.Em muitos problemas práticos relacionados ao aprendizado estatístico supervisionado, estamos interessados em prever um alvo contínuo. Frequentemente, a relação entre a variável explicativa e o variável alvo é não linear, então os modelos que introduzem não linearidade para este propósito tendem a obter melhores performances em geral. Um modelo estatístico que aborda esse problema é chamado de regressão splines e tem recebido atenção considerável nos últimos anos. Isso se deve ao seu grande poder preditivo e bons ajustes incorporados pela sua flexibilidade. No entanto, o modelo de regressão splines tem um desvantagem significativa: um de seus principais componentes, chamados nós, relacionados aos pontos de mudança, geralmente são escolhidos antes do processo de estimação. São considerados valores pré-especificados, que em algumas situações podem apresentar problemas graves na prática. Neste trabalho, propomos uma nova metodologia que tenta resolver isso considerando a localização dos nós e o número de nós como parâmetros, e resolvemos esse problema como uma abordagem de otimização usando o algoritmo de otimização não linear BFGS. Além disso, introduzimos novos métodos de regularização para penalizar variáveis com nós e evitar overfitting. A metodologia proposta obteve muitas vantagens em relação à a abordagem utilizada na literatura, como a estimativa automática do número e localização de nós, métodos de regularização que evitam overfitting e seleção de nós irrelevantes. Nosso método obteve vários ganhos em desempenho preditivo e estimativa de nós nas simulações, obtendo assim melhores resultados do que o procedimento usual.Biblioteca Digitais de Teses e Dissertações da USPLeonardi, Florencia GracielaFerreira, Alberto Rodrigues2022-06-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-08082022-182210/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2024-08-15T13:14:02Zoai:teses.usp.br:tde-08082022-182210Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T13:14:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Estimation of knots location and number in the splines regression models using an optimization approach
Estimação da localização e número dos knots do modelo de regressão splines usando uma abordagem de otimização
title Estimation of knots location and number in the splines regression models using an optimization approach
spellingShingle Estimation of knots location and number in the splines regression models using an optimization approach
Ferreira, Alberto Rodrigues
BFGS
BFGS
Estimação da localização dos knots
Estimação do número de knots
Knots location estimation
Knots number estimation
Métodos de regularização
Modelo de regressão splines
Regularization methods
Splines regression model
title_short Estimation of knots location and number in the splines regression models using an optimization approach
title_full Estimation of knots location and number in the splines regression models using an optimization approach
title_fullStr Estimation of knots location and number in the splines regression models using an optimization approach
title_full_unstemmed Estimation of knots location and number in the splines regression models using an optimization approach
title_sort Estimation of knots location and number in the splines regression models using an optimization approach
author Ferreira, Alberto Rodrigues
author_facet Ferreira, Alberto Rodrigues
author_role author
dc.contributor.none.fl_str_mv Leonardi, Florencia Graciela
dc.contributor.author.fl_str_mv Ferreira, Alberto Rodrigues
dc.subject.por.fl_str_mv BFGS
BFGS
Estimação da localização dos knots
Estimação do número de knots
Knots location estimation
Knots number estimation
Métodos de regularização
Modelo de regressão splines
Regularization methods
Splines regression model
topic BFGS
BFGS
Estimação da localização dos knots
Estimação do número de knots
Knots location estimation
Knots number estimation
Métodos de regularização
Modelo de regressão splines
Regularization methods
Splines regression model
description In many practical problems related to supervised statistical learning, we are interested in predicting a continuous target. Frequently, the relationship between the explanatory variable and the target variable is nonlinear, so models that introduce nonlinearity for this purpose tend to obtain better performances in general. A statistical model that addresses this problem called the regression splines model has received considerable attention in recent years. This is due to its great predictive power and good fits incorporated by its flexibility. However, the splines regression model has a significant disadvantage: one of its main components, called knots, related to the change points, are usually chosen before the estimation process. They are considered pre-specified values, which in some situations can present severe problems in practical problems. In this work, we propose a new methodology that tries to solve this considering the knots location and knots number as parameters, and we solve this problem as an optimization approach using the nonlinear optimization algorithm BFGS. Furthermore, we introduce new regularization methods to penalize variables with irrelevant knots and avoid overfitting. The proposed methodology obtained many advantages compared to the approach used in the literature, such as automatic estimation of the number and location of knots, regularization methods that avoids overfitting, and selection of irrelevant knots. Our ap- proach obtained several gains in predictive performance and knots estimation in the simulations, thus obtaining better results than the usual procedure.
publishDate 2022
dc.date.none.fl_str_mv 2022-06-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-08082022-182210/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-08082022-182210/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090520866095104