Efficient online tree, rule-based and distance-based algorithms
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-30082023-135843/ |
Resumo: | The fast development of digital technologies has given rise to the constant production of data in different forms and from different sources. While at the beginning of machine learning (ML) studies, data scarcity was a relevant problem for many application domains, nowadays, we may have too much information to handle with traditional ML algorithms. Besides, changes in the underlying data distributions that govern the data generation might render traditional ML solutions useless in real-world applications. Online ML (OML) aims to create solutions able to process data incrementally, with limited computation resource usage, and to deal with time-changing data distributions. Despite successfully creating efficient solutions applied in diverse domains, we have seen a recent growing trend in creating OML algorithms that only focus on predictive performance and overlook computational costs. This observation is even more prevalent when considering regression tasks, using decision trees, decision rules, and ensembles thereof, which are among the most popular OML solutions. Decreasing the computational costs of OML solutions could be more relevant than a slight increase in predictive performance from a real-world application standpoint. Hence, in this thesis, we focus on creating improved and efficient OML algorithms whose primary focus is decreasing the time and memory costs of tree and decision rule-based regressors and ensemble-based regressors. The desired bi-product is improving or, at least, leaving the predictive performance unchanged. We also explore an efficient algorithm to perform incremental nearest-neighbor searches. This thesis is organized as an article collection, comprehending our most relevant publications focused on the presented theme. We tackle strategies to create low-error ensemble-based regressors, efficient strategies to build incremental decision tree regressors, propose a fast and accurate decision tree-based ensemble regressor, and explore an efficient and versatile algorithm to perform nearest neighbor search in sliding windows. |
id |
USP_da176c3a5a77f9f7114b659214ccf126 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-30082023-135843 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Efficient online tree, rule-based and distance-based algorithmsAlgoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidadeAprendizado de máquina incrementalAprendizado supervisionadoBusca por vizinhos mais próximosComputational performanceDesempenho computacionalNearest neighbor searchOnline machine learningRegressãoRegressionSupervised learningThe fast development of digital technologies has given rise to the constant production of data in different forms and from different sources. While at the beginning of machine learning (ML) studies, data scarcity was a relevant problem for many application domains, nowadays, we may have too much information to handle with traditional ML algorithms. Besides, changes in the underlying data distributions that govern the data generation might render traditional ML solutions useless in real-world applications. Online ML (OML) aims to create solutions able to process data incrementally, with limited computation resource usage, and to deal with time-changing data distributions. Despite successfully creating efficient solutions applied in diverse domains, we have seen a recent growing trend in creating OML algorithms that only focus on predictive performance and overlook computational costs. This observation is even more prevalent when considering regression tasks, using decision trees, decision rules, and ensembles thereof, which are among the most popular OML solutions. Decreasing the computational costs of OML solutions could be more relevant than a slight increase in predictive performance from a real-world application standpoint. Hence, in this thesis, we focus on creating improved and efficient OML algorithms whose primary focus is decreasing the time and memory costs of tree and decision rule-based regressors and ensemble-based regressors. The desired bi-product is improving or, at least, leaving the predictive performance unchanged. We also explore an efficient algorithm to perform incremental nearest-neighbor searches. This thesis is organized as an article collection, comprehending our most relevant publications focused on the presented theme. We tackle strategies to create low-error ensemble-based regressors, efficient strategies to build incremental decision tree regressors, propose a fast and accurate decision tree-based ensemble regressor, and explore an efficient and versatile algorithm to perform nearest neighbor search in sliding windows.O rápido desenvolvimento de tecnologias digitais acarretou a produção constante de grandes volumes de dados, que se apresentam em diferentes formas e vêm de diferentes fontes. No início dos estudos de aprendizado de máquina (AM) a escassez de dados era um problema relevante em muitos domínios de aplicação, atualmente, no entanto, pode-se ter informação em demasia para tratar com algoritmos tradicionais de AM. Além disso, mudanças ao longo do tempo na distribuição probabilística que governa o processo de geração dos dados podem fazer com que as soluções tradicionais de AM se tornem inúteis em aplicações do mundo real. AM online (AMO) é uma área de estudos que busca criar soluções capazes de processar os dados incrementalmente, utilizando recursos computacionais limitados e lidando com distribuições de dados que mudam no decorrer do tempo. Apesar de a literatura em AMO apresentar soluções eficientes que foram aplicadas em domínios de aplicação diversos, existe uma tendência crescente de se criar algoritmos que focam apenas no desempenho preditivo, deixando o custo computacional em segundo plano. Essa observação é ainda mais predominante quando se considera tarefas de regressão que utilizam árvores e regras de decisão, bem como ensembles desses modelos, que estão dentre as soluções mais populares em AMO. Diminuir o custo computacional de soluções de AMO, de um ponto de vista do domínio de aplicação, pode ser mais relevante do que obter um leve aumento no desempenho preditivo. Assim, nessa tese, busca-se criar algoritmos de AMO cujo maior foco é a redução do tempo de processamento e do uso de memória em soluções de regressão baseadas em árvores e regras de decisão, além de ensembles formados por esses tipos de modelos. Um subproduto desejado é melhorar, ou pelo menos não impactar negativamente, o desempenho preditivo dos modelos. Na tese também é explorado um algoritmo eficiente para realizar buscas por vizinhos mais próximos de forma incremental. A tese é organizada como uma coleção de artigos, que compreende as publicações mais relevantes focadas nos temas apresentados. São abordadas estratégias para criar ensembles de regressão com baixo erro preditivo, propostos algoritmos eficientes de regressão incremental baseados em árvores de decisão, bem como um algoritmo para criação de ensembles baseados em árvores de decisão para regressão com baixo custo computacional e baixo erro preditivo. Por fim, é apresentado um algoritmo rápido e versátil para realizar buscas por vizinho mais próximo em janelas deslizantes de dados.Biblioteca Digitais de Teses e Dissertações da USPCarvalho, André Carlos Ponce de Leon Ferreira deMastelini, Saulo Martiello2023-05-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-30082023-135843/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2023-08-30T17:09:02Zoai:teses.usp.br:tde-30082023-135843Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-30T17:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Efficient online tree, rule-based and distance-based algorithms Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade |
title |
Efficient online tree, rule-based and distance-based algorithms |
spellingShingle |
Efficient online tree, rule-based and distance-based algorithms Mastelini, Saulo Martiello Aprendizado de máquina incremental Aprendizado supervisionado Busca por vizinhos mais próximos Computational performance Desempenho computacional Nearest neighbor search Online machine learning Regressão Regression Supervised learning |
title_short |
Efficient online tree, rule-based and distance-based algorithms |
title_full |
Efficient online tree, rule-based and distance-based algorithms |
title_fullStr |
Efficient online tree, rule-based and distance-based algorithms |
title_full_unstemmed |
Efficient online tree, rule-based and distance-based algorithms |
title_sort |
Efficient online tree, rule-based and distance-based algorithms |
author |
Mastelini, Saulo Martiello |
author_facet |
Mastelini, Saulo Martiello |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carvalho, André Carlos Ponce de Leon Ferreira de |
dc.contributor.author.fl_str_mv |
Mastelini, Saulo Martiello |
dc.subject.por.fl_str_mv |
Aprendizado de máquina incremental Aprendizado supervisionado Busca por vizinhos mais próximos Computational performance Desempenho computacional Nearest neighbor search Online machine learning Regressão Regression Supervised learning |
topic |
Aprendizado de máquina incremental Aprendizado supervisionado Busca por vizinhos mais próximos Computational performance Desempenho computacional Nearest neighbor search Online machine learning Regressão Regression Supervised learning |
description |
The fast development of digital technologies has given rise to the constant production of data in different forms and from different sources. While at the beginning of machine learning (ML) studies, data scarcity was a relevant problem for many application domains, nowadays, we may have too much information to handle with traditional ML algorithms. Besides, changes in the underlying data distributions that govern the data generation might render traditional ML solutions useless in real-world applications. Online ML (OML) aims to create solutions able to process data incrementally, with limited computation resource usage, and to deal with time-changing data distributions. Despite successfully creating efficient solutions applied in diverse domains, we have seen a recent growing trend in creating OML algorithms that only focus on predictive performance and overlook computational costs. This observation is even more prevalent when considering regression tasks, using decision trees, decision rules, and ensembles thereof, which are among the most popular OML solutions. Decreasing the computational costs of OML solutions could be more relevant than a slight increase in predictive performance from a real-world application standpoint. Hence, in this thesis, we focus on creating improved and efficient OML algorithms whose primary focus is decreasing the time and memory costs of tree and decision rule-based regressors and ensemble-based regressors. The desired bi-product is improving or, at least, leaving the predictive performance unchanged. We also explore an efficient algorithm to perform incremental nearest-neighbor searches. This thesis is organized as an article collection, comprehending our most relevant publications focused on the presented theme. We tackle strategies to create low-error ensemble-based regressors, efficient strategies to build incremental decision tree regressors, propose a fast and accurate decision tree-based ensemble regressor, and explore an efficient and versatile algorithm to perform nearest neighbor search in sliding windows. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-05-03 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-30082023-135843/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-30082023-135843/ |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809091206241583104 |