Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão

Detalhes bibliográficos
Autor(a) principal: Neimaier, Alisson Silva
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/241746
Resumo: Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo.
id UFRGS-2_0afc8a0e0890b4508d4f3fc8b72c4d4a
oai_identifier_str oai:www.lume.ufrgs.br:10183/241746
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Neimaier, Alisson SilvaPrass, Taiane Schaedler2022-07-05T05:07:53Z2022http://hdl.handle.net/10183/241746001143634Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo.There are plenty of techniques for the treatment of missing data outside of the time series framework and some in the context of linear time series from the ARIMA family. However, in general, these articles do not discuss the validity of the proposed methodologies in case of a large volume of missing data. In this context, identifying the appropriate model order for the parametric methods is another challenging point. With that in mind, this work proposes a methodology for recomposing time series using decision trees, a machine learning method that does not assume a parametric model for the data. In this approach, the known values of the time series are treated as the response variable, while the lags corresponding to those values are used as predictors. The tree selected by the training algorithm is then used to predict the missing values in the response. To analyze the proposed methodology, we use Monte Carlo simulations, considering processes from the ARMA family and the random walk processes varying the size of the time series, the model parameters, the proportion of missing values, and the number of predictors. To assess the quality of the recomposition, the decision trees’ predictions were compared with those of some traditional inputation methods. The results show the potential of the methodology and are in line with what was built in the theoretical framework of this study.application/pdfporSéries temporaisArvore de decisoesTime seriesDecision treesMissing dataPreenchimento de valores faltantes em séries temporais utilizando árvores de decisãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2022Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001143634.pdf.txt001143634.pdf.txtExtracted Texttext/plain105021http://www.lume.ufrgs.br/bitstream/10183/241746/2/001143634.pdf.txtfa25fd51b0d3f48a3c75c0f4741f7720MD52ORIGINAL001143634.pdfTexto completoapplication/pdf2968397http://www.lume.ufrgs.br/bitstream/10183/241746/1/001143634.pdf79ec39ddfbd6a9bf73ea6e264b741491MD5110183/2417462022-07-06 04:57:58.617424oai:www.lume.ufrgs.br:10183/241746Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-07-06T07:57:58Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
title Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
spellingShingle Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
Neimaier, Alisson Silva
Séries temporais
Arvore de decisoes
Time series
Decision trees
Missing data
title_short Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
title_full Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
title_fullStr Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
title_full_unstemmed Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
title_sort Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
author Neimaier, Alisson Silva
author_facet Neimaier, Alisson Silva
author_role author
dc.contributor.author.fl_str_mv Neimaier, Alisson Silva
dc.contributor.advisor1.fl_str_mv Prass, Taiane Schaedler
contributor_str_mv Prass, Taiane Schaedler
dc.subject.por.fl_str_mv Séries temporais
Arvore de decisoes
topic Séries temporais
Arvore de decisoes
Time series
Decision trees
Missing data
dc.subject.eng.fl_str_mv Time series
Decision trees
Missing data
description Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-07-05T05:07:53Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/241746
dc.identifier.nrb.pt_BR.fl_str_mv 001143634
url http://hdl.handle.net/10183/241746
identifier_str_mv 001143634
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/241746/2/001143634.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/241746/1/001143634.pdf
bitstream.checksum.fl_str_mv fa25fd51b0d3f48a3c75c0f4741f7720
79ec39ddfbd6a9bf73ea6e264b741491
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224636847882240