Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU

Detalhes bibliográficos
Autor(a) principal: Migliato, Antonio Luiz Tonissi
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/
Resumo: A atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos.
id USP_e82af17a832271c6d978079a94b45c3d
oai_identifier_str oai:teses.usp.br:tde-21012022-175531
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRUOutlier Detection in Unseen Time Series Data via Prediction Errors with SARIMA and Recurrent Neural Networks LSTM and GRUDetecção de outliersGRUGRULSTMLSTMOutliers detectionPredição de séries temporaisSARIMASARIMATime series predictionA atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos.The activity of identifying patterns in data that do not comply with expected behavior, or detection of outliers, as it is known, is a relevant problem in several areas of knowledge, such as finance, health, fraud detection, among others. In several of these areas, data are presented in the form of time series. This type of data requires methods that consider the sequential nature of the observations, as the values in time series are correlated and dependent. In these cases, outlier detection systems need to deal with situations in which values are temporally associated. Aiming to find more appropriate answers for the detection of outliers in these situations, systems based on prediction errors with LSTM recurrent networks have been proposed. In this work, an outlier detection model in unseen data based on the predictive capabilities of LSTM and GRU neural networks was studied. The difference between predicted values and observed values were calculated as prediction errors and used to detect outliers in three univariate time series of economic context. As a baseline for comparisons, the SARIMA statistical model was used. First, a specific threshold was used to detect outliers, calculated from the training set prediction errors. Secondly, the models were tested with all possible thresholds for detecting outliers. The results showed that the SARIMA model had better overall performance, both in predicting and detecting outliers, but the performances achieved by the LSTM and GRU neural networks were satisfactory and deserve further studies.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliMigliato, Antonio Luiz Tonissi2021-11-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-01-21T20:03:02Zoai:teses.usp.br:tde-21012022-175531Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-01-21T20:03:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
Outlier Detection in Unseen Time Series Data via Prediction Errors with SARIMA and Recurrent Neural Networks LSTM and GRU
title Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
spellingShingle Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
Migliato, Antonio Luiz Tonissi
Detecção de outliers
GRU
GRU
LSTM
LSTM
Outliers detection
Predição de séries temporais
SARIMA
SARIMA
Time series prediction
title_short Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
title_full Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
title_fullStr Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
title_full_unstemmed Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
title_sort Detecção de Outliers em Dados não Vistos de Séries Temporais por meio de Erros de Predição com SARIMA e Redes Neurais Recorrentes LSTM e GRU
author Migliato, Antonio Luiz Tonissi
author_facet Migliato, Antonio Luiz Tonissi
author_role author
dc.contributor.none.fl_str_mv Ponti, Moacir Antonelli
dc.contributor.author.fl_str_mv Migliato, Antonio Luiz Tonissi
dc.subject.por.fl_str_mv Detecção de outliers
GRU
GRU
LSTM
LSTM
Outliers detection
Predição de séries temporais
SARIMA
SARIMA
Time series prediction
topic Detecção de outliers
GRU
GRU
LSTM
LSTM
Outliers detection
Predição de séries temporais
SARIMA
SARIMA
Time series prediction
description A atividade de identificar padrões nos dados que não estejam em conformidade com o comportamento esperado, ou detecção de outliers, como é conhecida, é um problema relevante em diversas áreas do conhecimento, como financeira, saúde, detecção de fraudes, entre outras. Em diversas dessas áreas, os dados apresentam-se em forma de séries temporais. Esse tipo de dado exige métodos que considerem a natureza sequencial das observações, visto que os valores em séries temporais são correlacionados e dependentes. Nesses casos, sistemas de detecção de outliers precisam lidar com situações nas quais os valores estão temporalmente associados. Visando encontrar respostas mais apropriadas para a detecção de outliers nessas situações, sistemas baseados em erros de predições realizadas com redes recorrentes LSTM tem sido propostos. Neste trabalho, foi estudado um modelo de detecção de outliers em dados não vistos baseado nas capacidades preditivas das redes neurais LSTM e GRU. A diferença entre os valores preditos e os valores observados foram calculados como erros de predição e utilizados para detectar outliers em três séries temporais univariadas de contexto econômico. Como linha de base para comparações, foi utilizado o modelo estatístico SARIMA. Primeiramente, utilizou-se um valor limite específico para detecção de outliers, calculado a partir dos erros de predição do conjunto de treinamento. Num segundo momento, os modelos foram testados com todos os valores limites possíveis para detecção de outliers. Os resultados mostraram que o modelo SARIMA obteve melhor desempenho no geral, mas os desempenhos apresentados pelas redes neurais LSTM e GRU foram satisfatórios e merecem mais estudos.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-21012022-175531/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257233227776000