Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/ |
Resumo: | A atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos. |
id |
USP_e82af17a832271c6d978079a94b45c3d |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-21012022-175531 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRUOutlier Detection in Unseen Time Series Data via Prediction Errors with SARIMA and Recurrent Neural Networks LSTM and GRUDetecção de outliersGRUGRULSTMLSTMOutliers detectionPredição de séries temporaisSARIMASARIMATime series predictionA atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos.The activity of identifying patterns in data that do not comply with expected behavior, or detection of outliers, as it is known, is a relevant problem in several areas of knowledge, such as finance, health, fraud detection, among others. In several of these areas, data are presented in the form of time series. This type of data requires methods that consider the sequential nature of the observations, as the values in time series are correlated and dependent. In these cases, outlier detection systems need to deal with situations in which values are temporally associated. Aiming to find more appropriate answers for the detection of outliers in these situations, systems based on prediction errors with LSTM recurrent networks have been proposed. In this work, an outlier detection model in unseen data based on the predictive capabilities of LSTM and GRU neural networks was studied. The difference between predicted values and observed values were calculated as prediction errors and used to detect outliers in three univariate time series of economic context. As a baseline for comparisons, the SARIMA statistical model was used. First, a specific threshold was used to detect outliers, calculated from the training set prediction errors. Secondly, the models were tested with all possible thresholds for detecting outliers. The results showed that the SARIMA model had better overall performance, both in predicting and detecting outliers, but the performances achieved by the LSTM and GRU neural networks were satisfactory and deserve further studies.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliMigliato, Antonio Luiz Tonissi2021-11-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-01-21T20:03:02Zoai:teses.usp.br:tde-21012022-175531Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-01-21T20:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU Outlier Detection in Unseen Time Series Data via Prediction Errors with SARIMA and Recurrent Neural Networks LSTM and GRU |
title |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
spellingShingle |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU Migliato, Antonio Luiz Tonissi Detecção de outliers GRU GRU LSTM LSTM Outliers detection Predição de séries temporais SARIMA SARIMA Time series prediction |
title_short |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
title_full |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
title_fullStr |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
title_full_unstemmed |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
title_sort |
Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU |
author |
Migliato, Antonio Luiz Tonissi |
author_facet |
Migliato, Antonio Luiz Tonissi |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ponti, Moacir Antonelli |
dc.contributor.author.fl_str_mv |
Migliato, Antonio Luiz Tonissi |
dc.subject.por.fl_str_mv |
Detecção de outliers GRU GRU LSTM LSTM Outliers detection Predição de séries temporais SARIMA SARIMA Time series prediction |
topic |
Detecção de outliers GRU GRU LSTM LSTM Outliers detection Predição de séries temporais SARIMA SARIMA Time series prediction |
description |
A atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257233227776000 |