Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda

Detalhes bibliográficos
Autor(a) principal: Bento, Fabio Ricardo Oliveira
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
Texto Completo: http://repositorio.ufes.br/handle/10/12576
Resumo: The anomaly detection problem involves identifying events that do not follow an expected pattern of behavior. This paper addresses the of automatically detecting abnormal activity in videos using only information from frames. This is especially useful when auxiliary data from object detection, tracking, or human pose are unavailable or unreliable. The initial approach adopts convolutional neural networks to extract spatial features, followed by a time series classifier composed of a one-dimensional convolution layer and a set of stacked recurrent neural networks. The proposed methodology selects a pre-trained convolutional architecture as a feature extractor and uses transfer learning to specialize another network with the same architecture for detecting anomalies in surveillance videos. Experiments were conducted on the UCSD Anomaly Detection and CUHK Avenue datasets to compare the proposed approach with other studies. The evaluation protocol uses the metrics Area Under the Receiver Operating Characteristic Curve (AUC), Area Under the Precision vs Recall Curve (AUPRC) and Equal Error Rate (EER). During the experiments, the model achieved an AUC greater than 92% and an EER less than 9%, results consistent with the current literature. We next proposed a model that learns the global and local features of video frames. At the frame level, we used an FPN (Feature Pyramid Network)-based architecture to extract global features. At the patches level, we use a ViT (Vision Transformer) based architecture to extract local features. We then employ a sequential classifier that combines Transformers and LSTM (Long Short-Term Memory) networks to generate an anomaly score for each frame, based on a sequence of position-encoded embeddings. During model training, we use the Class-Balanced Focal Loss (CBFL) loss function to handle imbalance between classes. This function assigns more significant weights to classes with fewer samples, ensuring a balanced contribution of each class to the overall loss. CBFL improves model performance in unbalanced classification tasks, especially when dealing with underrepresented classes, such as the abnormal class in the context of video anomaly detection. We perform experiments on the UBnormal dataset to evaluate our approach and compare our results with existing work. In addition, we analyzed anomaly scores at the frame level over time and t-SNE plots for further insights. Our results, evaluated by the micro-average AUC and macro-average AUC metrics, are consistent with the current state of the art.
id UFES_fa59f5f7fb7808b8ad279c78a8686912
oai_identifier_str oai:repositorio.ufes.br:10/12576
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str 2108
spelling Vassallo, Raquel Frizerahttps://orcid.org/0000000247623219http://lattes.cnpq.br/9572903915280374Bento, Fabio Ricardo Oliveirahttps://orcid.org/0000-0002-0664-4363http://lattes.cnpq.br/2551099729266425Ciarelli, Patrick Marqueshttps://orcid.org/0000000331774028http://lattes.cnpq.br/1267950518719423Fernandes, Mariana RampinelliMontalvão Filho, Jugurta RosaLópez, Plinio Moreno2024-05-29T20:55:28Z2024-05-29T20:55:28Z2023-10-20The anomaly detection problem involves identifying events that do not follow an expected pattern of behavior. This paper addresses the of automatically detecting abnormal activity in videos using only information from frames. This is especially useful when auxiliary data from object detection, tracking, or human pose are unavailable or unreliable. The initial approach adopts convolutional neural networks to extract spatial features, followed by a time series classifier composed of a one-dimensional convolution layer and a set of stacked recurrent neural networks. The proposed methodology selects a pre-trained convolutional architecture as a feature extractor and uses transfer learning to specialize another network with the same architecture for detecting anomalies in surveillance videos. Experiments were conducted on the UCSD Anomaly Detection and CUHK Avenue datasets to compare the proposed approach with other studies. The evaluation protocol uses the metrics Area Under the Receiver Operating Characteristic Curve (AUC), Area Under the Precision vs Recall Curve (AUPRC) and Equal Error Rate (EER). During the experiments, the model achieved an AUC greater than 92% and an EER less than 9%, results consistent with the current literature. We next proposed a model that learns the global and local features of video frames. At the frame level, we used an FPN (Feature Pyramid Network)-based architecture to extract global features. At the patches level, we use a ViT (Vision Transformer) based architecture to extract local features. We then employ a sequential classifier that combines Transformers and LSTM (Long Short-Term Memory) networks to generate an anomaly score for each frame, based on a sequence of position-encoded embeddings. During model training, we use the Class-Balanced Focal Loss (CBFL) loss function to handle imbalance between classes. This function assigns more significant weights to classes with fewer samples, ensuring a balanced contribution of each class to the overall loss. CBFL improves model performance in unbalanced classification tasks, especially when dealing with underrepresented classes, such as the abnormal class in the context of video anomaly detection. We perform experiments on the UBnormal dataset to evaluate our approach and compare our results with existing work. In addition, we analyzed anomaly scores at the frame level over time and t-SNE plots for further insights. Our results, evaluated by the micro-average AUC and macro-average AUC metrics, are consistent with the current state of the art.Esta tese aborda o problema de detecção de anomalias, que consiste em identificar eventos que não se conformam a um padrão de comportamento esperado. No contexto específico desta pesquisa, o objetivo é desenvolver um método para a detecção automática de eventos anômalos em vídeos, utilizando exclusivamente informações de sequências de frames. Essa abordagem é especialmente útil em situações em que dados auxiliares provenientes de algoritmos de detecção/rastreamento de objetos ou dados de pose humana não estão disponíveis ou não são confiáveis. A abordagem inicial adotada utiliza redes neurais convolucionais para extrair características espaciais dos dados. Em seguida, é empregado um classificador de séries temporais, composto por uma camada de convolução unidimensional e um conjunto de redes neurais recorrentes. A metodologia proposta seleciona uma arquitetura convolucional pré-treinada como extrator de características e emprega a técnica de transferência de aprendizagem para adaptar a rede ao problema em questão. Foram conduzidos experimentos com os conjuntos de dados UCSD Anomaly Detection e CUHK Avenue, e a avaliação foi baseada em métricas como a Area Under the Receiver Operating Characteristic Curve (AUC), a Area Under the Precision vs Recall Curve (AUPRC) e a Equal Error Rate (EER). Os resultados obtidos demonstraram uma AUC superior a 92% e uma EER inferior a 9%, os quais estão em conformidade com os resultados encontrados na literatura atual. Em seguida foi proposto um modelo que visa aprender as características globais e locais de cada frame em um vídeo de entrada. No nível do frame, empregou-se uma arquitetura baseada na FPN (Feature Pyramid Network) para extrair características globais. Por outro lado, no nível dos patches, adotou-se uma arquitetura fundamentada no ViT (Vision Transformer) para extrair características locais. Então, foi aplicado um classificador sequencial que combina redes Transformers e LSTM (Long Short-Term Memory) para gerar um escore de anomalia para cada frame. Isso é realizado com base em uma sequência de embeddings codificados por posição. Também, foi utilizada a função de perda ClassBalanced Focal Loss (CBFL) para lidar com o desequilíbrio entre as classes normal e anômala. Foram conduzidos experimentos no conjunto de dados UBnormal, avaliando a métrica AUC no nível de frame, tanto em sua versão micro quanto macro. Além disso, foram analisados os escores de anomalia ao longo do tempo no nível de frame, bem como os gráficos t-SNE. Por fim, o resultado da avaliação pelas métricas AUC micro-média e AUC macro-média demonstrou proximidade com o estado da arte.Texthttp://repositorio.ufes.br/handle/10/12576porUniversidade Federal do Espírito SantoDoutorado em Engenharia ElétricaPrograma de Pós-Graduação em Engenharia ElétricaUFESBRCentro TecnológicoEngenharia ElétricaCidades inteligentesVisão computacionalAprendizagem profundaDetecção de anomaliasDetecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profundainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALFabioRicardoOliveiraBento-2023-Trabalho.pdfapplication/pdf13975866http://repositorio.ufes.br/bitstreams/1fac6383-af34-4122-9fd5-3dd348ad8174/download153a13c651cd98cb1bb5bf2509727c46MD5110/125762024-08-13 07:19:03.222oai:repositorio.ufes.br:10/12576http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T18:01:41.055213Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
spellingShingle Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
Bento, Fabio Ricardo Oliveira
Engenharia Elétrica
Cidades inteligentes
Visão computacional
Aprendizagem profunda
Detecção de anomalias
title_short Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_full Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_fullStr Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_full_unstemmed Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_sort Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
author Bento, Fabio Ricardo Oliveira
author_facet Bento, Fabio Ricardo Oliveira
author_role author
dc.contributor.authorID.none.fl_str_mv https://orcid.org/0000-0002-0664-4363
dc.contributor.authorLattes.none.fl_str_mv http://lattes.cnpq.br/2551099729266425
dc.contributor.advisor1.fl_str_mv Vassallo, Raquel Frizera
dc.contributor.advisor1ID.fl_str_mv https://orcid.org/0000000247623219
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9572903915280374
dc.contributor.author.fl_str_mv Bento, Fabio Ricardo Oliveira
dc.contributor.referee1.fl_str_mv Ciarelli, Patrick Marques
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000000331774028
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/1267950518719423
dc.contributor.referee2.fl_str_mv Fernandes, Mariana Rampinelli
dc.contributor.referee3.fl_str_mv Montalvão Filho, Jugurta Rosa
dc.contributor.referee4.fl_str_mv López, Plinio Moreno
contributor_str_mv Vassallo, Raquel Frizera
Ciarelli, Patrick Marques
Fernandes, Mariana Rampinelli
Montalvão Filho, Jugurta Rosa
López, Plinio Moreno
dc.subject.cnpq.fl_str_mv Engenharia Elétrica
topic Engenharia Elétrica
Cidades inteligentes
Visão computacional
Aprendizagem profunda
Detecção de anomalias
dc.subject.por.fl_str_mv Cidades inteligentes
Visão computacional
Aprendizagem profunda
Detecção de anomalias
description The anomaly detection problem involves identifying events that do not follow an expected pattern of behavior. This paper addresses the of automatically detecting abnormal activity in videos using only information from frames. This is especially useful when auxiliary data from object detection, tracking, or human pose are unavailable or unreliable. The initial approach adopts convolutional neural networks to extract spatial features, followed by a time series classifier composed of a one-dimensional convolution layer and a set of stacked recurrent neural networks. The proposed methodology selects a pre-trained convolutional architecture as a feature extractor and uses transfer learning to specialize another network with the same architecture for detecting anomalies in surveillance videos. Experiments were conducted on the UCSD Anomaly Detection and CUHK Avenue datasets to compare the proposed approach with other studies. The evaluation protocol uses the metrics Area Under the Receiver Operating Characteristic Curve (AUC), Area Under the Precision vs Recall Curve (AUPRC) and Equal Error Rate (EER). During the experiments, the model achieved an AUC greater than 92% and an EER less than 9%, results consistent with the current literature. We next proposed a model that learns the global and local features of video frames. At the frame level, we used an FPN (Feature Pyramid Network)-based architecture to extract global features. At the patches level, we use a ViT (Vision Transformer) based architecture to extract local features. We then employ a sequential classifier that combines Transformers and LSTM (Long Short-Term Memory) networks to generate an anomaly score for each frame, based on a sequence of position-encoded embeddings. During model training, we use the Class-Balanced Focal Loss (CBFL) loss function to handle imbalance between classes. This function assigns more significant weights to classes with fewer samples, ensuring a balanced contribution of each class to the overall loss. CBFL improves model performance in unbalanced classification tasks, especially when dealing with underrepresented classes, such as the abnormal class in the context of video anomaly detection. We perform experiments on the UBnormal dataset to evaluate our approach and compare our results with existing work. In addition, we analyzed anomaly scores at the frame level over time and t-SNE plots for further insights. Our results, evaluated by the micro-average AUC and macro-average AUC metrics, are consistent with the current state of the art.
publishDate 2023
dc.date.issued.fl_str_mv 2023-10-20
dc.date.accessioned.fl_str_mv 2024-05-29T20:55:28Z
dc.date.available.fl_str_mv 2024-05-29T20:55:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufes.br/handle/10/12576
url http://repositorio.ufes.br/handle/10/12576
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Doutorado em Engenharia Elétrica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFES
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro Tecnológico
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Doutorado em Engenharia Elétrica
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
bitstream.url.fl_str_mv http://repositorio.ufes.br/bitstreams/1fac6383-af34-4122-9fd5-3dd348ad8174/download
bitstream.checksum.fl_str_mv 153a13c651cd98cb1bb5bf2509727c46
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv
_version_ 1813022572516737024