Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Roder, Mateus

Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Detalhes bibliográficos
Autor(a) principal:	Roder, Mateus
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/204165
Resumo:	Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.

Metadados do item

id	UNSP_d7efa2cdad969ecb2de333b33dece0fa
oai_identifier_str	oai:repositorio.unesp.br:11449/204165
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeosDeep Boltzmann machines for video events recognitionAprendizado em profundidadeMáquinas de Boltzmann RestritasClassificação de eventosVídeosDeep learningRestricted boltzmann machinesEvent classificationNa última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.In the past decade, the exponential growth of data has supported the development of a wide range of algorithms based on machine learning, enabling its uses in daily basis activities. Besides, such improvement is partially explained due to the advent of deep learning techniques, i.e., the composition of simple architectures that generate complex and robust models. Although both factors produce excellent results, they also have disadvantages concerning the learning process, since training complex models in large data sets are computationally expensive and time-consuming. This problem becomes evident when it comes to the video analysis and processing, as recognition of actions or events, since sequences of images (frames) are considered and usually generate a single output. Another relevant problem concerns the low number of high-level events classification databases, making it difficult to develop some conceptual aspects. Some studies consider transferring learning or a domain adapting, that is, approaches that map knowledge from one domain to another, to lighten the training load as most of them operate in individual blocks or small blocks of frames. Therefore, this work proposes a new approach to map knowledge between domains, from action recognition to event recognition/classification using energy-based models as a mapping function. Also, it is proposed a modification in the video processing for the employed models, capable of processing all frames simultaneously by carrying spatial and temporal information during the learning process, denoted as Somatório processing. The experimental results conducted over two public video data sets, the UCF-101 and the HMDB-51, portrait the effectiveness of the domain adaptation approach and the proposed Somatório models, reducing the computational load when compared to the standard energy-based models, such as Restricted Boltzmann Machines, Deep Belief Networks, and Deep Boltzmann Machines.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2019/07825-1Universidade Estadual Paulista (Unesp)Papa, João Paulo [UNESP]Universidade Estadual Paulista (Unesp)Roder, Mateus2021-03-23T17:20:17Z2021-03-23T17:20:17Z2021-02-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20416533004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-04-23T14:48:47Zoai:repositorio.unesp.br:11449/204165Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-04-23T14:48:47Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos Deep Boltzmann machines for video events recognition
title	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
spellingShingle	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos Roder, Mateus Aprendizado em profundidade Máquinas de Boltzmann Restritas Classificação de eventos Vídeos Deep learning Restricted boltzmann machines Event classification
title_short	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_full	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_fullStr	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_full_unstemmed	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
title_sort	Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos
author	Roder, Mateus
author_facet	Roder, Mateus
author_role	author
dc.contributor.none.fl_str_mv	Papa, João Paulo [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Roder, Mateus
dc.subject.por.fl_str_mv	Aprendizado em profundidade Máquinas de Boltzmann Restritas Classificação de eventos Vídeos Deep learning Restricted boltzmann machines Event classification
topic	Aprendizado em profundidade Máquinas de Boltzmann Restritas Classificação de eventos Vídeos Deep learning Restricted boltzmann machines Event classification
description	Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.
publishDate	2021
dc.date.none.fl_str_mv	2021-03-23T17:20:17Z 2021-03-23T17:20:17Z 2021-02-25
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/204165 33004153073P2
url	http://hdl.handle.net/11449/204165
identifier_str_mv	33004153073P2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1803650005685239808

Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Registros relacionados