Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/ |
Resumo: | Neste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas. |
id |
USP_11690e1fc4b7564b7f9a560ee8c9c514 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-05042024-102614 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicaçõesNew regression models and machine learning algorithms: theory and applicationsÁrvores de decisãoCensored dataCross-validation k-foldDados censuradosDecision treesFlorestas aleatóriasFlorestas aleatórias de sobrevivênciaQuantile regressionRandom forestsRandom survival forestsRegressão quantílicaValidação cruzada k-foldNeste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas.In this work, new regression models are defined, based on exponentiated odd log-logistic-G (EOLL-G) family of distributions. This family has the flexibility to model bimodal, symmetric or asymmetric data. Using the Normal distribution as a basis, a quantile regression model and a partially linear regression model are proposed. Two new bivariate families are defined based on the EOLL-G family and using the Clayton and Frank copulas. Two models for censored data are proposed using the Weibull and generalized Rayleigh distributions as a basis. The predictive performance of the partially linear model and one of the models for censored data is compared with machine learning algorithms: decision trees, random forests and random survival forests. Structural properties of the new distributions were provided, which exhibit the flexibility of the family used and may be useful for future work. The maximum likelihood method was used to estimate the parameters and simulation studies for both models were carried out, proving the consistency of the estimates. Several applications are carried out illustrating the usefulness of the new models. As for predictive capacity, they proved to be competitive with machine learning algorithms, according to simulation studies and the applications carried out.Biblioteca Digitais de Teses e Dissertações da USPOrtega, Edwin Moises MarcosRodrigues, Gabriela Maria2024-01-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPReter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.info:eu-repo/semantics/openAccesspor2024-04-08T14:06:02Zoai:teses.usp.br:tde-05042024-102614Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-04-08T14:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações New regression models and machine learning algorithms: theory and applications |
title |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
spellingShingle |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações Rodrigues, Gabriela Maria Árvores de decisão Censored data Cross-validation k-fold Dados censurados Decision trees Florestas aleatórias Florestas aleatórias de sobrevivência Quantile regression Random forests Random survival forests Regressão quantílica Validação cruzada k-fold |
title_short |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
title_full |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
title_fullStr |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
title_full_unstemmed |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
title_sort |
Novos modelos de regressão e algoritmos de aprendizado de máquina: teoria e aplicações |
author |
Rodrigues, Gabriela Maria |
author_facet |
Rodrigues, Gabriela Maria |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ortega, Edwin Moises Marcos |
dc.contributor.author.fl_str_mv |
Rodrigues, Gabriela Maria |
dc.subject.por.fl_str_mv |
Árvores de decisão Censored data Cross-validation k-fold Dados censurados Decision trees Florestas aleatórias Florestas aleatórias de sobrevivência Quantile regression Random forests Random survival forests Regressão quantílica Validação cruzada k-fold |
topic |
Árvores de decisão Censored data Cross-validation k-fold Dados censurados Decision trees Florestas aleatórias Florestas aleatórias de sobrevivência Quantile regression Random forests Random survival forests Regressão quantílica Validação cruzada k-fold |
description |
Neste trabalho são definidos novos modelos de regressão, baseados na família de distribuições exponentiated odd log-logistic (EOLL-G). Esta família possui a flexibilidade de modelar dados bimodais, simétricos ou assimétricos. Utilizando a distribuição Normal como base, são propostos um modelo de regressão quantílica e um modelo de regressão parcialmente linear. Duas novas famílias bivariadas são definidas a partir da família EOLL-G e utilizando as cópulas de Clayton e de Frank. Dois modelos para dados censurados são propostos utilizando como base as distribuições Weibull e generalized Rayleigh. O desempenho preditivo do modelo parcialmente linear e de um dos modelos para dados censurados é comparado com algoritmos de aprendizado de máquinas: árvores de decisão, florestas aleatórias e florestas aleatórias de sobrevivência. Propriedades estruturais das novas distribuições foram fornecidas, que exibem a flexibilidade da família utilizada e podem ser úteis para trabalhos futuros. O método de máxima verossimilhança foi utilizado para estimação dos parâmetros e estudos de simulações para ambos os modelos são realizados, comprovando a consistência das estimativas. Diversas aplicações são realizadas ilustrando a utilidade dos novos modelos. Quanto à capacidade preditiva, eles mostraram-se competitivos aos algoritmos de aprendizado de máquina, de acordo com os estudos de simulações e com as aplicações realizadas. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-01-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/ |
url |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-05042024-102614/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256690844499968 |