Domain generalization, invariance and the Time Robust Forest

Detalhes bibliográficos
Autor(a) principal: Santos, Luis Gustavo Moneda dos
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16112021-193305/
Resumo: As time passes by, the performance of real-world predictive models degrades due to distributional shifts. Typical countermeasures, such as retraining and online learning, can be costly and difficult to implement in production, especially when business constraints and culture are accounted for. Causality-based approaches aim at identifying invariant mechanisms from data, thus leading to more robust predictors at the possible expense of a decrease in short-term performance. However, most such approaches scale poorly to high dimensions or require extra knowledge such as segmentation of the data in representative environments. In this work, we review the literature on the limitations of Machine Learning in real settings, with a focus on approaches that use causality concepts to improve generalization. Motivated by the shortcomings discussed above, we develop Time Robust Forests (TRF), a new algorithm for inducing decision trees with an inductive bias towards learning time-invariant rules. The algorithm\'s main innovation is to replace the usual information-gain split criterion (or similar) with a new criterion that examines the imbalance among classes induced by the split through time. Experiments with real data show that our approach can improve long-term generalization, thus offering an interesting alternative for dynamical classification problems.
id USP_4112f06f2df63bbb2dff2fbda3b8954d
oai_identifier_str oai:teses.usp.br:tde-16112021-193305
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Domain generalization, invariance and the Time Robust ForestGeneralização de domínio, invariância, e a Floresta Temporalmente RobustaCausal invarianceDomain generalizationGeneralização de domínioInductive biasInvariância causalViés indutivoAs time passes by, the performance of real-world predictive models degrades due to distributional shifts. Typical countermeasures, such as retraining and online learning, can be costly and difficult to implement in production, especially when business constraints and culture are accounted for. Causality-based approaches aim at identifying invariant mechanisms from data, thus leading to more robust predictors at the possible expense of a decrease in short-term performance. However, most such approaches scale poorly to high dimensions or require extra knowledge such as segmentation of the data in representative environments. In this work, we review the literature on the limitations of Machine Learning in real settings, with a focus on approaches that use causality concepts to improve generalization. Motivated by the shortcomings discussed above, we develop Time Robust Forests (TRF), a new algorithm for inducing decision trees with an inductive bias towards learning time-invariant rules. The algorithm\'s main innovation is to replace the usual information-gain split criterion (or similar) with a new criterion that examines the imbalance among classes induced by the split through time. Experiments with real data show that our approach can improve long-term generalization, thus offering an interesting alternative for dynamical classification problems.Com o passar do tempo, o desempenho de modelos preditivos em dados reais degrada devido a mudanças na distribuição dos dados. Medidas típicas como o retreino e aprendizado em tempo-real podem ser custosas e difíceis de implementar em produção, especialmente quando restrições de negócio e cultura organizacional são levados em conta. Abordagens baseadas em causalidade buscam identificar mecanismos invariantes nos dados, resultando em preditores mais robustos às custas da diminuição de desempenho no curto prazo. Grande parte dessas abordagens, porém, não escala bem com alta dimensionalidade, ou requer conhecimento extra, tal como a segmentação do conjunto de dados em ambientes representativos. Neste trabalho, revisamos a literatura sobre as limitações do Aprendizado de Máquina em cenários reais com um foco em abordagens que usam conceitos de causalidade para melhorar a generalização. Motivados pelas deficiências discutidas acima, desenvolvemos a Floresta Temporalmente Robusta (TRF), um novo algoritmo para induzir árvores de decisão com um viés indutivo para o aprendizado de regras temporalmente invariantes. A inovação do algoritmo está em substituir o habitual critério para divisão baseado em ganho de informação por um novo critério que toma em consideração o desbalanceamento entre as classes a serem separadas em uma perspectiva temporal. Experimentos com dados vindos de aplicações reais mostram que nossa abordagem pode melhorar a generalização no longo prazo, oferecendo desta forma uma alternativa para problemas de classificação de caráter dinâmico.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniSantos, Luis Gustavo Moneda dos2021-09-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-16112021-193305/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2021-12-09T20:20:08Zoai:teses.usp.br:tde-16112021-193305Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-12-09T20:20:08Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Domain generalization, invariance and the Time Robust Forest
Generalização de domínio, invariância, e a Floresta Temporalmente Robusta
title Domain generalization, invariance and the Time Robust Forest
spellingShingle Domain generalization, invariance and the Time Robust Forest
Santos, Luis Gustavo Moneda dos
Causal invariance
Domain generalization
Generalização de domínio
Inductive bias
Invariância causal
Viés indutivo
title_short Domain generalization, invariance and the Time Robust Forest
title_full Domain generalization, invariance and the Time Robust Forest
title_fullStr Domain generalization, invariance and the Time Robust Forest
title_full_unstemmed Domain generalization, invariance and the Time Robust Forest
title_sort Domain generalization, invariance and the Time Robust Forest
author Santos, Luis Gustavo Moneda dos
author_facet Santos, Luis Gustavo Moneda dos
author_role author
dc.contributor.none.fl_str_mv Mauá, Denis Deratani
dc.contributor.author.fl_str_mv Santos, Luis Gustavo Moneda dos
dc.subject.por.fl_str_mv Causal invariance
Domain generalization
Generalização de domínio
Inductive bias
Invariância causal
Viés indutivo
topic Causal invariance
Domain generalization
Generalização de domínio
Inductive bias
Invariância causal
Viés indutivo
description As time passes by, the performance of real-world predictive models degrades due to distributional shifts. Typical countermeasures, such as retraining and online learning, can be costly and difficult to implement in production, especially when business constraints and culture are accounted for. Causality-based approaches aim at identifying invariant mechanisms from data, thus leading to more robust predictors at the possible expense of a decrease in short-term performance. However, most such approaches scale poorly to high dimensions or require extra knowledge such as segmentation of the data in representative environments. In this work, we review the literature on the limitations of Machine Learning in real settings, with a focus on approaches that use causality concepts to improve generalization. Motivated by the shortcomings discussed above, we develop Time Robust Forests (TRF), a new algorithm for inducing decision trees with an inductive bias towards learning time-invariant rules. The algorithm\'s main innovation is to replace the usual information-gain split criterion (or similar) with a new criterion that examines the imbalance among classes induced by the split through time. Experiments with real data show that our approach can improve long-term generalization, thus offering an interesting alternative for dynamical classification problems.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16112021-193305/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16112021-193305/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257085525360640