Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações

Detalhes bibliográficos
Autor(a) principal: Rodrigues, Gabriela Maria
Data de Publicação: 2024
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/
Resumo: Neste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas.
id USP_11690e1fc4b7564b7f9a560ee8c9c514
oai_identifier_str oai:teses.usp.br:tde-05042024-102614
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicaçõesNew regression models and machine learning algorithms: theory and applicationsÁrvores de decisãoCensored dataCross-validation k-foldDados censuradosDecision treesFlorestas aleatóriasFlorestas aleatórias de sobrevivênciaQuantile regressionRandom forestsRandom survival forestsRegressão quantílicaValidação cruzada k-foldNeste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas.In this work, new regression models are defined, based on exponentiated odd log-logistic-G (EOLL-G) family of distributions. This family has the flexibility to model bimodal, symmetric or asymmetric data. Using the Normal distribution as a basis, a quantile regression model and a partially linear regression model are proposed. Two new bivariate families are defined based on the EOLL-G family and using the Clayton and Frank copulas. Two models for censored data are proposed using the Weibull and generalized Rayleigh distributions as a basis. The predictive performance of the partially linear model and one of the models for censored data is compared with machine learning algorithms: decision trees, random forests and random survival forests. Structural properties of the new distributions were provided, which exhibit the flexibility of the family used and may be useful for future work. The maximum likelihood method was used to estimate the parameters and simulation studies for both models were carried out, proving the consistency of the estimates. Several applications are carried out illustrating the usefulness of the new models. As for predictive capacity, they proved to be competitive with machine learning algorithms, according to simulation studies and the applications carried out.Biblioteca Digitais de Teses e Dissertações da USPOrtega, Edwin Moises MarcosRodrigues, Gabriela Maria2024-01-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPReter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.info:eu-repo/semantics/openAccesspor2024-04-08T14:06:02Zoai:teses.usp.br:tde-05042024-102614Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-04-08T14:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
New regression models and machine learning algorithms: theory and applications
title Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
spellingShingle Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
Rodrigues, Gabriela Maria
Árvores de decisão
Censored data
Cross-validation k-fold
Dados censurados
Decision trees
Florestas aleatórias
Florestas aleatórias de sobrevivência
Quantile regression
Random forests
Random survival forests
Regressão quantílica
Validação cruzada k-fold
title_short Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
title_full Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
title_fullStr Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
title_full_unstemmed Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
title_sort Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
author Rodrigues, Gabriela Maria
author_facet Rodrigues, Gabriela Maria
author_role author
dc.contributor.none.fl_str_mv Ortega, Edwin Moises Marcos
dc.contributor.author.fl_str_mv Rodrigues, Gabriela Maria
dc.subject.por.fl_str_mv Árvores de decisão
Censored data
Cross-validation k-fold
Dados censurados
Decision trees
Florestas aleatórias
Florestas aleatórias de sobrevivência
Quantile regression
Random forests
Random survival forests
Regressão quantílica
Validação cruzada k-fold
topic Árvores de decisão
Censored data
Cross-validation k-fold
Dados censurados
Decision trees
Florestas aleatórias
Florestas aleatórias de sobrevivência
Quantile regression
Random forests
Random survival forests
Regressão quantílica
Validação cruzada k-fold
description Neste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas.
publishDate 2024
dc.date.none.fl_str_mv 2024-01-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/
url https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256690844499968