Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Brito, André de Souza

Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Detalhes bibliográficos
Autor(a) principal:	Brito, André de Souza
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFJF
Texto Completo:	https://repositorio.ufjf.br/jspui/handle/ufjf/12598
Resumo:	O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte.

Metadados do item

id	UFJF_4fbc1a11be688cd9286448bde0c7e5ed
oai_identifier_str	oai:hermes.cpd.ufjf.br:ufjf/12598
network_acronym_str	UFJF
network_name_str	Repositório Institucional da UFJF
repository_id_str
spelling	Villela, Saulo Moraeshttp://lattes.cnpq.br/3358075178615535Vieira, Marcelo Bernardeshttp://lattes.cnpq.br/0858482819476716Bernardino, Heder Soareshttp://lattes.cnpq.br/7733681743453751Pedrini, Héliohttp://lattes.cnpq.br/9600140904712115http://lattes.cnpq.br/1889743458002542Brito, André de Souza2021-04-15T12:34:38Z2021-04-152021-04-15T12:34:38Z2019-08-30https://repositorio.ufjf.br/jspui/handle/ufjf/12598O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte.The human action recognition problem based on video classification has significantly benefited from the introduction of deep learning models. However, this is still an open problem due to the inherent difficulty in developing a general and robust solution. In this domain, addressing the temporal aspect of the videos is crucial in order to build realistic models. A key step in this direction is the selection of features that characterize the complexity of human actions. With this goal, we propose a solution for the video classification problem based on a multi-stream deep convolutional neural network architecture. A multi-stream is an interesting way to aggregate information from different sources with a lower training cost if compared to other methods. A new stream called optical flow rhythm was incorporated to improve accuracy rates. Our experiments suggest that optical flow rhythm is complementary to other streams, such as RGB, optical flow and visual rhythm, boosting the results of the approach. To combine the various streams in our architecture, we introduce a new weighted average fusion scheme where the weights of the classifiers are defined by a simulated annealing metaheuristic. Furthermore, we propose a training and test protocol based on the extraction of multiple planes of the visual and optical flow rhythms. The results indicate a performance augmentation using this protocol. Experiments conducted on the challenging UCF101 and HMDB51 datasets demonstrate that our method is comparable to state-of-the-art approaches.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasAttribution-NonCommercial-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-sa/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOReconhecimento de ações humanasMulti-fluxoRitmo do fluxo ópticoHuman action recognitionMulti-streamOptical flow rhythmUma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo ópticoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFORIGINALandrédesouzabrito.pdfandrédesouzabrito.pdfPDF/Aapplication/pdf2444297https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/1/andr%c3%a9desouzabrito.pdf14a57384ff21d58fff4649a3e2031660MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/2/license_rdf996f8b5afe3136b76594f43bfda24c5eMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTandrédesouzabrito.pdf.txtandrédesouzabrito.pdf.txtExtracted texttext/plain169969https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/4/andr%c3%a9desouzabrito.pdf.txt7038e9b2efc25c59e5f1c443e95bcce8MD54THUMBNAILandrédesouzabrito.pdf.jpgandrédesouzabrito.pdf.jpgGenerated Thumbnailimage/jpeg1171https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/5/andr%c3%a9desouzabrito.pdf.jpgd1d7f01f3e84d68331dd50839c7ece67MD55ufjf/125982021-04-16 03:19:18.728oai:hermes.cpd.ufjf.br:ufjf/12598Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2021-04-16T06:19:18Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
title	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
spellingShingle	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico Brito, André de Souza CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Reconhecimento de ações humanas Multi-fluxo Ritmo do fluxo óptico Human action recognition Multi-stream Optical flow rhythm
title_short	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
title_full	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
title_fullStr	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
title_full_unstemmed	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
title_sort	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico
author	Brito, André de Souza
author_facet	Brito, André de Souza
author_role	author
dc.contributor.advisor1.fl_str_mv	Villela, Saulo Moraes
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/3358075178615535
dc.contributor.advisor-co1.fl_str_mv	Vieira, Marcelo Bernardes
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br/0858482819476716
dc.contributor.referee1.fl_str_mv	Bernardino, Heder Soares
dc.contributor.referee1Lattes.fl_str_mv	http://lattes.cnpq.br/7733681743453751
dc.contributor.referee2.fl_str_mv	Pedrini, Hélio
dc.contributor.referee2Lattes.fl_str_mv	http://lattes.cnpq.br/9600140904712115
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/1889743458002542
dc.contributor.author.fl_str_mv	Brito, André de Souza
contributor_str_mv	Villela, Saulo Moraes Vieira, Marcelo Bernardes Bernardino, Heder Soares Pedrini, Hélio
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Reconhecimento de ações humanas Multi-fluxo Ritmo do fluxo óptico Human action recognition Multi-stream Optical flow rhythm
dc.subject.por.fl_str_mv	Reconhecimento de ações humanas Multi-fluxo Ritmo do fluxo óptico Human action recognition Multi-stream Optical flow rhythm
description	O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte.
publishDate	2019
dc.date.issued.fl_str_mv	2019-08-30
dc.date.accessioned.fl_str_mv	2021-04-15T12:34:38Z
dc.date.available.fl_str_mv	2021-04-15 2021-04-15T12:34:38Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufjf.br/jspui/handle/ufjf/12598
url	https://repositorio.ufjf.br/jspui/handle/ufjf/12598
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-nc-sa/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-nc-sa/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv	Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	UFJF
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF
instname_str	Universidade Federal de Juiz de Fora (UFJF)
instacron_str	UFJF
institution	UFJF
reponame_str	Repositório Institucional da UFJF
collection	Repositório Institucional da UFJF
bitstream.url.fl_str_mv	https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/1/andr%c3%a9desouzabrito.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/2/license_rdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/3/license.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/4/andr%c3%a9desouzabrito.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/12598/5/andr%c3%a9desouzabrito.pdf.jpg
bitstream.checksum.fl_str_mv	14a57384ff21d58fff4649a3e2031660 996f8b5afe3136b76594f43bfda24c5e 8a4605be74aa9ea9d79846c1fba20a33 7038e9b2efc25c59e5f1c443e95bcce8 d1d7f01f3e84d68331dd50839c7ece67
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_	1801661339709472768

Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Registros relacionados