Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Detalhes bibliográficos
Autor(a) principal: Roder, Mateus
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/204165
Resumo: Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.
id UNSP_d7efa2cdad969ecb2de333b33dece0fa
oai_identifier_str oai:repositorio.unesp.br:11449/204165
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeosDeep Boltzmann machines for video events recognitionAprendizado em profundidadeMáquinas de Boltzmann RestritasClassificação de eventosVídeosDeep learningRestricted boltzmann machinesEvent classificationNa última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.In the past decade, the exponential growth of data has supported the development of a wide range of algorithms based on machine learning, enabling its uses in daily basis activities. Besides, such improvement is partially explained due to the advent of deep learning techniques, i.e., the composition of simple architectures that generate complex and robust models. Although both factors produce excellent results, they also have disadvantages concerning the learning process, since training complex models in large data sets are computationally expensive and time-consuming. This problem becomes evident when it comes to the video analysis and processing, as recognition of actions or events, since sequences of images (frames) are considered and usually generate a single output. Another relevant problem concerns the low number of high-level events classification databases, making it difficult to develop some conceptual aspects. Some studies consider transferring learning or a domain adapting, that is, approaches that map knowledge from one domain to another, to lighten the training load as most of them operate in individual blocks or small blocks of frames. Therefore, this work proposes a new approach to map knowledge between domains, from action recognition to event recognition/classification using energy-based models as a mapping function. Also, it is proposed a modification in the video processing for the employed models, capable of processing all frames simultaneously by carrying spatial and temporal information during the learning process, denoted as Somatório processing. The experimental results conducted over two public video data sets, the UCF-101 and the HMDB-51, portrait the effectiveness of the domain adaptation approach and the proposed Somatório models, reducing the computational load when compared to the standard energy-based models, such as Restricted Boltzmann Machines, Deep Belief Networks, and Deep Boltzmann Machines.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2019/07825-1Universidade Estadual Paulista (Unesp)Papa, João Paulo [UNESP]Universidade Estadual Paulista (Unesp)Roder, Mateus2021-03-23T17:20:17Z2021-03-23T17:20:17Z2021-02-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20416533004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-04-23T14:48:47Zoai:repositorio.unesp.br:11449/204165Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-04-23T14:48:47Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
Deep Boltzmann machines for video events recognition
title Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
spellingShingle Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
Roder, Mateus
Aprendizado em profundidade
Máquinas de Boltzmann Restritas
Classificação de eventos
Vídeos
Deep learning
Restricted boltzmann machines
Event classification
title_short Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_full Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_fullStr Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_full_unstemmed Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_sort Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
author Roder, Mateus
author_facet Roder, Mateus
author_role author
dc.contributor.none.fl_str_mv Papa, João Paulo [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Roder, Mateus
dc.subject.por.fl_str_mv Aprendizado em profundidade
Máquinas de Boltzmann Restritas
Classificação de eventos
Vídeos
Deep learning
Restricted boltzmann machines
Event classification
topic Aprendizado em profundidade
Máquinas de Boltzmann Restritas
Classificação de eventos
Vídeos
Deep learning
Restricted boltzmann machines
Event classification
description Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-23T17:20:17Z
2021-03-23T17:20:17Z
2021-02-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/204165
33004153073P2
url http://hdl.handle.net/11449/204165
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803650005685239808