Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/241746 |
Resumo: | Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo. |
id |
UFRGS-2_0afc8a0e0890b4508d4f3fc8b72c4d4a |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/241746 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Neimaier, Alisson SilvaPrass, Taiane Schaedler2022-07-05T05:07:53Z2022http://hdl.handle.net/10183/241746001143634Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo.There are plenty of techniques for the treatment of missing data outside of the time series framework and some in the context of linear time series from the ARIMA family. However, in general, these articles do not discuss the validity of the proposed methodologies in case of a large volume of missing data. In this context, identifying the appropriate model order for the parametric methods is another challenging point. With that in mind, this work proposes a methodology for recomposing time series using decision trees, a machine learning method that does not assume a parametric model for the data. In this approach, the known values of the time series are treated as the response variable, while the lags corresponding to those values are used as predictors. The tree selected by the training algorithm is then used to predict the missing values in the response. To analyze the proposed methodology, we use Monte Carlo simulations, considering processes from the ARMA family and the random walk processes varying the size of the time series, the model parameters, the proportion of missing values, and the number of predictors. To assess the quality of the recomposition, the decision trees’ predictions were compared with those of some traditional inputation methods. The results show the potential of the methodology and are in line with what was built in the theoretical framework of this study.application/pdfporSéries temporaisArvore de decisoesTime seriesDecision treesMissing dataPreenchimento de valores faltantes em séries temporais utilizando árvores de decisãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2022Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001143634.pdf.txt001143634.pdf.txtExtracted Texttext/plain105021http://www.lume.ufrgs.br/bitstream/10183/241746/2/001143634.pdf.txtfa25fd51b0d3f48a3c75c0f4741f7720MD52ORIGINAL001143634.pdfTexto completoapplication/pdf2968397http://www.lume.ufrgs.br/bitstream/10183/241746/1/001143634.pdf79ec39ddfbd6a9bf73ea6e264b741491MD5110183/2417462022-07-06 04:57:58.617424oai:www.lume.ufrgs.br:10183/241746Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-07-06T07:57:58Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
title |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
spellingShingle |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão Neimaier, Alisson Silva Séries temporais Arvore de decisoes Time series Decision trees Missing data |
title_short |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
title_full |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
title_fullStr |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
title_full_unstemmed |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
title_sort |
Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão |
author |
Neimaier, Alisson Silva |
author_facet |
Neimaier, Alisson Silva |
author_role |
author |
dc.contributor.author.fl_str_mv |
Neimaier, Alisson Silva |
dc.contributor.advisor1.fl_str_mv |
Prass, Taiane Schaedler |
contributor_str_mv |
Prass, Taiane Schaedler |
dc.subject.por.fl_str_mv |
Séries temporais Arvore de decisoes |
topic |
Séries temporais Arvore de decisoes Time series Decision trees Missing data |
dc.subject.eng.fl_str_mv |
Time series Decision trees Missing data |
description |
Na literatura existem diversas técnicas para o tratamento de observações faltantes para dados que não são séries temporais. Já no contexto de séries temporais encontram-se alguns trabalhos focados em modelos lineares da família ARIMA. Entretanto, em geral, os artigos não discutem a validade das metodologias propostas para o caso de um grande volume de dados faltantes. Nesse contexto, a identificação da ordem do modelo apropriado para utilização de métodos paramétricos é outro ponto desafiador. Tendo em vista esses fatos, este trabalho aborda uma metodologia para recomposição de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal fazem o papel de variável resposta, enquanto que defasagens correspondentes a tais valores são utilizadas como preditoras, a árvore selecionada pelo algoritmo de treinamento é então utilizada para prever os valores faltantes na resposta. Para investigar a metodologia proposta, foram utilizadas simulações de Monte Carlo, considerando processos da família ARMA e o passeio aleatório, variando o tamanho das séries temporais, os parâmetros dos modelos, a proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns métodos de inputação tradicionais. Os resultados encontrados evidenciam a potencial do método proposto e condizem com o referencial teórico deste estudo. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-07-05T05:07:53Z |
dc.date.issued.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/241746 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001143634 |
url |
http://hdl.handle.net/10183/241746 |
identifier_str_mv |
001143634 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/241746/2/001143634.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/241746/1/001143634.pdf |
bitstream.checksum.fl_str_mv |
fa25fd51b0d3f48a3c75c0f4741f7720 79ec39ddfbd6a9bf73ea6e264b741491 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447314846711808 |